本课程全程实战演练,讲解Spark核心概念和技术原理
官网解读Spark与Hadoop的优势对比
从0起步进行Spark的两种安装方式与集群的构建
讲解Spark的核心概念Resilient Distributed Dataset.
详细演示Maven的工作原理以及本地Maven仓库服务器的搭建与配置
结合书籍同步讲解Spark集群的部署模式以及shell的应用
讲解Spark编程与运行
简介sbt(simple build tool)以及弃用的原因。
讲解使用maven对Spark的项目进行编译和运行。
讲解演示addFile的操作原理和Spark的整体概述。
实战演练maven的pom文件的配置。
详细讲解eclipse下maven的使用与spark项目的构建以及仓库的配置。
讲解spark中分别使用java和scala语言创建sparkContext对象,
介绍SparkContext中几种元数据,master、appName、version等.
介绍并演示addFile文件的意图和常见错误.
通过案例展示flatMap的RDD扁平化处理机制.
讲解csv文件的spark数据处理.
教程列表:
01.Scala介绍与安装
02.Scala基础
03.Scala操作符重载与Apply与包导入
04.Scala控制结构与函数