大数据工程师

数据工程师教学将帮助学员综合理解并全面掌握通过Cloudera ManagerHadoop机群的运维管理,并学习Apache PigHiveCloudera Impala技术,将教会您如何将传统的数据分析和商业智能技术应用到大数据领域。

课程推荐:CCA课程学习

课程讲师:原厂商讲师

课程基础

·   针对Apache HadoopCloudera开发人员培训或具有同等的实践经验。

·   熟练掌握Java语言,并对Linux系统具有基本的了解。同时,具备SQL经验对于课程的学习也是有帮助的。

国际认证CCP Data Engineer


课程体系:


大数据概论

大数据基本概念、发展形势、行业应用、关键技术和生态链介绍。


数据科学导论

数据科学的基本概念、工作流程、基本算法、数据工程和典型应用。


Linux系统基础

系统安装、常用命令、文本编辑、正则表达式、管道和输出输入重定向、进程管理、程序优先级以及前台后台。


Linux系统管理

无人值守、终端使用、用户权限体系及sudoscreencroncupsgrubinitprocmodprobedevicenetworknmapautofs、文件系统、mountswap、内核编译、mudulesgroup、文件权限、aclchattrlvm


Linux网络服务

xinetdsecurityntpdateselinuxiptablestcp_wrapperpamhttpdbindftpsendmailpostfixpop3imap4webmail


Shell程序设计

Shell基础、变量、判断、循环、函数、算术运算、重定向、常用命令(至少包含grep/find/xargs/sort/uniq/head/tail/cut/curl/wget/cat/tac/rev/tr/paste/join)、高级变量、字符串操作、正则表达式、sedawk、网络编程、信号、加密、应用实例(重点内容,需要加强)


MySQL数据库基础

安装启动、SQL语言、错误信息、数据查询及修改、数据导入及导出、简单函数。


MySQL数据库管理

架构设计、数据库备份恢复、用户管理、存储引擎、分区、视图、数据库优化。


Java程序设计

概述、数据类型、变量、运算符、流程控制、数组、字符串、类、对象、封装/拆包、继承、多态、面向对象、异常处理、多线程、输入输出、文件管理、时间日期、向量、哈希表、图形界面、绘图、网络编程、数据库。


Python程序设计

概述、文本编辑器、数据类型、变量、字符串、编码、条件判断、循环、dictset、函数、高级函数、模块、类、继承、多态、面向对象、定制类、枚举类、元类、错误处理、调试、单元测试、IO编程、文件和目录、序列化、进程和现场、正则表达式、内置模块、常用第三方模块、Vitualenv、图形界面、网络编程、电子邮件、数据库、Web开发、异步编程。


网络爬虫设计

HTML基础、网页元素解析、爬取网页静态数据、爬取图片、爬取动态信息、数据存储、爬取工作流、多线程爬虫、数据图表、自动化爬虫系统。


数据仓库技术

SQL基础与提高、介绍、创建数据仓库、数据存储、数据仓库建模、维表事实表细粒度表、ETL框架设计、数据抽取、数据转换、数据加载、主流ETL工具、数据仓库优化和备份。


Excel数据分析

数据分析基础、生命周期、常用指标和术语、数据分析方法论、数据准备、数据清洗、数据抽取、数据合并、数据计算、数据转化、对比分析、结构分析、分布分析、交叉分析、矩阵分析、多表关联分析、RFM分析、饼图、直方图、折线图、双坐标图、目标完成率图、雷达图、矩阵图、漏斗图、旋风图、帕累托图、数据报告。


Python数据分析

Python基础、iPython、数据采集(Scrapy)、数据处理、数据存储、数据分析(Pandas/Numpy)、数据可视化(matplotlib


R数据分析

简介、安装、Rstudio、数据类型、程序结构、函数、向量计算、数据导入、数据处理、数据存储、数据分析、数据可视化。


NoSQL非结构化数据库

NoSQL基础、常用NoSQL数据库、NoSQL化关系型数据库、MongoDB介绍、MongoDB代码实践、面向文档的数据,查询与聚合、更新/原子操作/删除/MongoDB索引、查询优化、MongoDB驱动与复制。


Hadoop系统基础

起源和动机、基本概念、解决方案、生态系统、架构介绍、掌握Hadoop、生产环境的Hadoop、管理Hadoop


Hadoop系统管理

Hadoop基础概念、核心部件、HDFS、数据导入、YARNMapReduce、集群规划、安装和配置、HiveImpalaPig、客户端、管理器、集群高级配置、安全方案、计划工作任务、集群维护、监控和故障诊断。


Hadoop数据分析

导入数据、Pig数据分析、Pig处理复杂数据、Pig多数据组操作、扩展PigPig故障排除和优化、Hive关系数据分析、Hive数据管理、Hive文本处理、Hive优化、Hive扩展、Impala分析数据。


Hadoop应用开发

MapReduce介绍、Hadoop集群和生态系统、用Java编写MapReduce、用Streaming编写MapReduce、单元测试、HadoopAPIPartitionersReducers、数据输入输出、数据集连接、集成企业工作流程、Hive/Impala/Pig介绍、Oozie介绍。


Spark应用开发

SparkShell、弹性分布式数据集(RDDs)、Spark功能开发、Spark集群、并行编程、缓存、分布式持久化、编写Spark应用、Spark/HadoopEDHStreaming、通用Spark算法、Spark性能优化。


Hbase数据库

HBaseAPI、数据检索、添加和更新数据、删除数据、ScanAPI、过滤、高级API技术、HBase架构、读写路径、压缩拆分、安装和配置、ZooKeeper、系统管理、复制、备份、集群、RowKey设计、表结构设计、生态系统。


大数据应用开发

定义使用DataSetsKiteSDK、创建数据组、装载/访问/删除数据组、Flume捕获数据、Flume自定义组件开发、Oozie管理工作流、Crunch处理数据管道、Hive数据库、开发用户定义功能、Impala执行交互查询、Search、索引、展示结果。


商业智能

商业智能概述、常用工具、QlikSense简介、使用QlikSense探索数据、数据源、数据模型、前端报表、脚本、数据架构、常用函数、数据类型、流程控制、交叉表与层次结构、集合分析、聚合函数、权限控制、优化。