【快班】突击pyspark:数据挖掘的力量倍..
编程技术
10周
4人
此课程所属【大数据攻城狮专业】, 【hadoop大数据工程师职业方向】专业,专业内有不少于15门推荐课程,目前平台推出【专业课程0元学】活动,只需0元即可在所有的专业课程中任选5门学习,超值优惠,助您快速成长!点击这里了解
- dasheng
当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。Apache Spark
作为MapReduce的新一代继承者。 是对map
reduce从性能,易用性和复杂分析优化的强大的开源数据处理引擎。Spark框架支持流式数据处理, 复杂迭代算法,比传统Hadoop
MapReduce 程序快100倍。
Python语言时当下数据领域的瑞士军刀,但是作为一门脚本语言python先天只能在一台机器上发展,不适合分析大数据,因此需要其他大数据软件来处理,Spark虽然是由Scala编写,但也提供了Pyspark,让熟悉Python者能够轻易熟悉操作大数据。
本课程将为大家全面而又深入的介绍Spark1.x,2.x 、Hadoop、pyspark平台的构建流程,涉及Spark、Hadoop系统基础知识,概念及架构, pySpark、Hadoop的实战技巧,Spark、Hadoop经典案例等。
通过本课程实践,帮助学员对Spark、Hadoop生态系统有一个清晰明了的认识;理解Spark、Hadoop系统适用的场景;掌握pySpark、Hadoop等初中级应用开发技能,让你的python水平更上层楼。
- 第1课 spark介绍
- 1-1 hadoop、spark集群环境搭建
- 1-2 pyspark开发环境搭建
- 1-3 spark 1.x和2.x的对比
- 第2课 pySpark核心编程模型
- 2-1 RDD
- 2-2 transformation
- 2-3 action
- 第3课 pySpark核心编程实战
- 3-1 lineage
- 3-2 容错处理
- 3-3 宽依赖与窄依赖
- 第4课 Spark内核详解剖析
- 4-1 Spark术语解释
- 4-2 集群概览
- 4-3 核心组件
- 4-4 数据本地性
- 第5课 spark任务调度详解
- 5-1 RDD任务调度(DAGScheduler ,TaskScheduler)
- 5-2 Task细节
- 5-3 广播变量
- 5-4 累加器
- 第6课 spark工程经验和性能调优
- 第7课 spark sql 详解
- 7-1 DataFrame
- 7-2 外部数据源API
- 7-3 与Spark其他组件的交互
- 第8课 spark sql编程实战
- 8-1 Catalyst查询优化器
- 8-2 Tungsten 优化
- 第9课 spark streaming 开发
- 9-1 Dstream
- 9-2 数据源
- 9-3 容错
- 第10课 spark运维技能
python
linux
本课程面向喜欢Python的学员,课程分为spark core、spark sql、spark streaming三个摸块。理论结合实战,让学员真正达到融会贯通、举一反三的效果。并应用到自己的工作环境中。
1. 掌握Spark核心原理;
2. 了解如何对Spark Job进行性能优化;
3.. 掌握Spark Streaming的原理及使用方式
4. 了解SQL引擎的原理,掌握Spark SQL的使用和优化方式
学费: ¥400 ( 固定学费: ¥300, 逆向学费: ¥100 )
新颖的课程收费形式:“逆向收费”约等于免费学习,仅收取300元固定收费+100元逆向学费,学习圆满则逆向学费全额返还给学员!