大数据分析师

Cloudera Data Analyst Training

Cloudera为数据专业人员提供了基于SQL和其它熟悉的脚本编程语言的工具,用来访问、操作、转换和分析复杂数据集。

课程时长:4天

课程讲师:原厂商讲师

课程基础:

·需具备一定的SQL知识水平

·基本熟悉Linux命令行

·学员至少熟悉一种脚本语言知识(例如,Bash脚本编程、PerlPythonRuby)将会更有帮助,但不是必需的。

国际认证:CCA Data Analyst

课程体系:

1.简介

    -关于该课程

    -关于Cloudera

    -课程的逻辑介绍

2.Hadoop基础

    -Hadoop的动机

    -Hadoop概况

    -HDFS

    -MapReduce

    -Hadoop生态圈

    -实验场景介绍

    -实验:Hadoop工具导入数据

3.Pig简介

    -什么是Pig?

    -Pig的特性

    -Pig使用案例

    -Pig交互

4.Pig进行基本数据分析

    -PigLatin语法

    -数据装载

    -简单数据类型

    -Field定义

    -数据输出

    -表结构视图

    -数据过滤和排序

    -常用功能

    -实验:Pig执行ETL流程

5.Pig处理复杂数据

    -存储格式

    -复杂/Nested嵌套的数据类型

    -成群

    -处理复杂数据的内置功能

    -迭代成群的数据

    -实验:Pig分析广告战役的数据

6.Pig的多数据组操作

    -集成多数据组的技术

    -Pig链接多数据组

    -组操作

    -数据组分裂

    -实验:Pig分析离散的数据组

7.扩展Pig

    -用参数带来灵活性

    -MacrosImports

    -UDFs

    -ContributedFunctions

    -用其他语言和Pig一起处理数据

    -实验:用流处理和UDFs扩展Pig

8.Pig故障排查和优化

    -Pig故障排查

    -记录日志

    -使用HadoopWeb界面

    -演示:Web界面排查一个故障的任务

    -Data采样和故障排查

    -性能简介

    -理解执行计划(ExecutionPlan

    -提高你Pig任务性能的窍门

9.Hive简介

    -什么是Hive?

    -Hive表结构和数据存储

    -对比Hive和传统数据库

    -Hivevs.Pig

    -Hive使用案例

    -Hive的互操作

10.Hive的关系数据分析

    -Hive数据库和表

    -基本HiveQL语法

    -数据类型

    -链接数据组

    -通用内建功能

    -实验:Shell,脚本和Hue上运行运行Hive查询

11.Hive数据管理

    -Hive数据格式

    -创建数据库和由Hive管理的表

    -Hive装载数据

    -改变数据库和表

    -自治表格

    -用视图简化查询

    -排列查询结果

    -数据的访问控制

    -实验:Hive的数据管理

12.Hive的文本处理

    -文本处理简介

    -重要的字符串(String)功能

    -使用Hive的标准表达式(RegularExpressions

    -SentimentAnalysisandN-Grams

   -实验:通过敏感性分析(SentimentAnalysis)收获洞察

13.Hive优化

    -理解查询性能

    -控制任务执行计划

    -分区

    -Bucketing

    -索引数据

14.Hive扩展

    -SerDes

    -用定制脚本完成数据转型

    -自定义功能

    -ParameterizedQueries

    -实验:Hive的数据转型

15.Impala简介

    -什么是Impala?

    -ImpalaHivePig的不同

    -Impala和关系数据库的不同

    -局限和未来方向

    -使用ImpalaShell

16.采样Impala分析数据

    -基本语法

    -数据类型

    -过滤、排序和结果输出限制

    -链接和组队数据

    -提升Impala性能

    -实验:Impala的交互式分析

17.为任务选择最优的工具

    -对比MapReducePigHiveImpala和关系数据库

    -选择哪个?