Spark  去小组页 > Spark 652个成员

轩宇老师Spark从入门到上手实战

老学长 2017-08-25 09:05:15

Spark从入门到上手实战 课程学习地址:http://www.xuetuwuyou.com/course/186 课程出自学途无忧网:http://www.xuetuwuyou.com 讲师:轩宇老师 课程简介: Spark属于新起的基于内存处理海量数据的框架,由于其快速被众公司所青睐。Spark 生态栈框架,非常的强大,可以对数据进行批处理、流式处理、SQL 交互式处理及机器学习和Graphx 图像计算。目前绝大数公司都使用,主要在于 Spark SQL 结构化数据的处理,非常的快速,高性能。 基于Spark Core之上的流式处理和结构化数据查询,已被众多公司青睐,在企业中使用最广泛,很多大数据公司都在将以往RDBMS和 Hive中的数据处理,迁移使用Spark SQL。 课程目录: 第1章:SCALA编程(一) 1.大数据分析框架概要、Spark课程学习计划及建议 2.为什么学习SCALA语言及SCALA语言介绍和学习提纲 3.SCALA环境搭建及IDEA安装配置(JAVA安装、SCALA安装及IDEA安装)) 4.SCALA语言HelloWorld及安装总结(作业LINUX系统安装) 5.SCALA中变量的声明(两种方式) 6.SCALA中数据类型及操作符 7.IF语句及WHILE循环

...

Spark从入门到上手实战 课程学习地址:http://www.xuetuwuyou.com/course/186 课程出自学途无忧网:http://www.xuetuwuyou.com 讲师:轩宇老师 课程简介: Spark属于新起的基于内存处理海量数据的框架,由于其快速被众公司所青睐。Spark 生态栈框架,非常的强大,可以对数据进行批处理、流式处理、SQL 交互式处理及机器学习和Graphx 图像计算。目前绝大数公司都使用,主要在于 Spark SQL 结构化数据的处理,非常的快速,高性能。 基于Spark Core之上的流式处理和结构化数据查询,已被众多公司青睐,在企业中使用最广泛,很多大数据公司都在将以往RDBMS和 Hive中的数据处理,迁移使用Spark SQL。 课程目录: 第1章:SCALA编程(一) 1.大数据分析框架概要、Spark课程学习计划及建议 2.为什么学习SCALA语言及SCALA语言介绍和学习提纲 3.SCALA环境搭建及IDEA安装配置(JAVA安装、SCALA安装及IDEA安装)) 4.SCALA语言HelloWorld及安装总结(作业LINUX系统安装) 5.SCALA中变量的声明(两种方式) 6.SCALA中数据类型及操作符 7.IF语句及WHILE循环、循环表达式及FOR基本使用 8.FOR循环深入讲解及yield功能 9.SCALA中的Breaks使用 10.函数的定义(如何确定一个函数) 11.函数的定义(各种情况下函数定义与使用) 12.函数的作用域、默认参数函数和名称参数函数使用详解 13.变长参数函数和内部函数使用详解 14.匿名函数定义与使用 15.高阶函数定义与使用 16.深入高阶函数的使用 第2章:SCALA编程(二) 17.数组Array和ArrayBuffer 18.SCALA中集合类Collections概要讲解 19.集合类之List和ListBuffer创建与基本操作 20.集合List中常见高阶函数使用详解(一) 21.集合List中常见高阶函数使用详解(二) 22.SCALA中元组创建与使用 23.集合类之Set及常见函数使用 24.集合类之Map创建与遍历 25.集合类综合应用:实现WordCount词频统计 26.类Class的定义与创建对象 27.对象object及apply方法 28.类class的构造方法(主构造方法和附属构造方法) 29.SCALA中的Trait初步使用 30.SCALA中异常的处理及模式匹配初步使用 31.模式匹配之匹配类型、元组 32. CaseClass及在模式匹配中使用 33.Option(Some、Node)及模式匹配使用 34.SCALA中隐式转换详解(结合案例) 35.SCALA中隐式参数详解(结合案例) 36.综合回顾复习SCALA的所有知识要点 第3章:Spark Core(一) 37.SPARK框架学习的基础及与Spark初步认识 38.Spark Feature详解及处理数据三步走策略 39.Spark 学习资源、源码下载及编译详解 40.SPARK 安装目录及使用的方便优点 41.Local Mode配置、启动spark-shell及运行程序测试 42.编程实现WordCount程序(类比MapReduce实现思路) 43.Spark Local Mode深入剖析详解 44.使用IDEA创建MAVEN工程及配置依赖 45.编写Spark Application开发模板 46.深入WordCount程序分析(sortByKey和top函数使用) 47.如何导入Spark源码至IDEA中(Windows下) 48.Spark Standalone 集群架构、配置、启动深入详解及运行spark-shell测试 49.浅析Spark Application运行Cluster组成及spark-submit提交应用 50.深入剖析Spark Application中Job、Stage和Task关系 51.案例:对原始数据进行清洗过滤及实现每日浏览量统计 52.案例:实现每日访客数统计及使用HiveQL进行结果验证、打包运行SparkStandalone集群 第4章:Spark Core(二) 53.Spark Application运行的Deploy Mode详解(结合案例演示) 54.使用spark-submit提交应用运行Standalone集群及性能调优 55.Spark Application运行的EventLog启用 56.Spark HistoryServer配置及使用 57.RDD是什么及创建方式 58.RDD操作类型及持久化详解 59.RDD中常用的Transformation和Action详解(一) 60.RDD中常用的Transformation和Action详解(二) 61.案例:分组排序TopKey实现及如何处理数据倾斜(分阶段聚合) 62.SparkOnYarn:运行SparkApplication在YARN上(编写脚本) 63.配置HIstoryServer及运行在YARN的两种Deploy Mode架构 64.官方案例:读取日志数据及正则解析(CASE CLASS) 65.官方案例:依据业务编码实现及熟悉RDD API 66.官方案例:其他业务编码实现测试及过滤数据 67.官方案例:RDD#top函数使用(自定义排序规则)及提交运行YARN集群 68.内核调度:Spark Job Scheduler详解(一) 69.内核调度:Spark Job Scheduler详解(二) 第5章:Spark SQL 70.SparkSQL的重要性及Spark2.x的生态圈 71.SparkSQL前世今生(Hive、Shark、SparkSQL)及初步使用说明 72.案例分析:基于DataFrame和SQL分析数据(一) 73.案例分析:基于DataFrame和SQL分析数据(二) 74.SparkSQL Introduction及处理数据的方式 75.SparkSQL与Hive集成配置详解 76.基于SQL和DSL方式分析处理Hive表的数据 77.SparkSQL中提供的spark-sql命令行的使用 78.SparkSQL中ThriftServer配置使用详解 79.SparkSQL性能优化及DataFrame是什么 80.SparkSQL读取多种数据数据实例 81.DataFrame实现多数据源数据的关联分析 82.SparkSQL读取AVRO格式数据详解 83.SparkSQL读取CSV或TSV格式数据详解 84.自定义schema的方式转换RDD为DataFrame及直接运行SQL在数据文件上 85.SparkSQL中自带函数的使用及如何自定义UDF、注册和使用 86.Spark 2.x中SparkSQL基本使用(一) 87.Spark 2.x中SparkSQL基本使用(二) 第6章:Spark Streaming及Kafka 88.大数据处理的类型、流式计算的框架及Streaming内容概要 89.SparkStreaming是什么、使用案例及数据处理流程 90.官方Example案例:词频统计运行详解 91.SparkStreaming编程实现从Socket读取数据实时统计分析 92.深入SparkStreaming运行的工作原理 93.深度剖析batch interval和block interval及性能优化 94.编程模型:从源码深入剖析DStream(StreamingContext、DStream操作) 95.深入详解DStream#foreachRDD使用 96.Apache Kafka介绍及架构详解 97.Apache Kafka安装、部署、启动 98.创建Topic、发送和消费数据及深入理解KAFKA数据的存储 99.剖析分享Kafka企业技术架构及使用(结合Kafka Meetup分享) 100.SparkStreaming与Flume和Kafka两种集成方式详解 101.采用Pull方式与Kafka集成进行数据分析处理 102.状态Stateful实时统计updataStateByKey使用 103.SparkStreaming实时分析应用的高可用性 104.实时窗口Window统计详解(reduceByKeyAndWindow使用) 第7章:基于Java和Python的Spark编程 105.基于Java和Python语言的Spark开发的提纲及学习方式 106.基于JAVA语言编写Spark Application编程模板、读取数据及测试监控 107.案例WordCount:结合源码编码实现JAVA语言编程 108.案例WordCount:对统计的词频进行降序排序(涉及TopKey)及作业说明 109.案例分析:基于JAVA实现如何将RDD转换为DataFrame 110.案例分析:使用SQL进行数据分析 111.案例分析:使用DSL进行数据分析及自定义UDF注册使用 112.SparkStreaming基于JAVA实现从Socket读取数据WordCount统计及测试 113.结合案例实现JAVA编程DStream#foreachRDD和从KAFKA读取数据 114结合案例讲解基于JAVA的updateState和window编程及作业 115.Python介绍、Windows下2.7的安装及测试 116.PyCharm安装、设置及创建工程和测试 117.PySpark第三方包的安装配置 118.基于Python的SparkCore编程模板 119.并行化本地集合创建RDD及RDD初步使用 120.Python中函数的定义及匿名函数lambda使用 121.PySpark实现WordCount程序及测试 122.PySpark实现从HDFS读取数据实现WordCount(属性配置) 123.深入WordCount程序之SortByKey 124.深入WordCount程序之TopKey 125.Anaconda2版本、安装、配置、使用及测试(针对pyspark编程) 126.Spark自带交互式pyspark命令的使用 127.pyspark底层架构及如何提交pyspark程序运行 第8章、SparkCore项目实战 (2017.8.24新增,加量不加价) 128.项目实战:离线数据分析平台架构及处理处理流程 129.项目实战:如何将RDD数据保存到HBase表中 130:项目实战:如何从HBase表中读取数据 131:项目实战:日志数据ETL保存到HBase表(一) 132:项目实战:日志数据ETL保存到HBase表(二) 133:项目实战:日志数据ETL保存到HBase表(三) 134:项目实战:日志数据ETL保存到HBase表(四) 135:项目实战:从HBase表读取数据进行新增用户统计分析(一) 136:项目实战:从HBase表读取数据进行新增用户统计分析(二) 137:项目实战:从HBase表读取数据进行新增用户统计分析(三) 138:项目实战:从HBase表读取数据进行新增用户统计分析(四) 139:项目实战:部署运行(CLASSPATH设置)及Executor内存使用优化 零基础学大数据: 2017零基础大数据就业课程(全网最全,14个课程,65章,共计856课时!) 课程观看地址:http://www.xuetuwuyou.com/course/181

0
展开查看全文

回应 (3条) 只看楼主

  • 平凡的世界
    剩下的视频还有么?
  • nvpwlkdismw
    Spark从入门到上手实战
    网盘地址:https://pan.baidu.com/s/1vE7n9eDDIBPAnIOLFK_zqg 密码: fq2c
    备用地址(腾讯微云):https://share.weiyun.com/55RRnmc 密码:8qywnp

    课程是2017年录制,还比较新,还是有学习的价值的
  • nvpwlkdismw
    good
添加回应

推荐小组

豆瓣
免费下载 iOS / Android 版客户端