大数据管理员

Cloudera Aaminisrrator Training for Apache Hadoop

Hadoop管理员教学将帮助学员综合理解并全面掌握通过Cloudera ManagerHadoop机群的运维管理,包括:安装,配置、负载平衡及性能调优等。

课程时长:4天

课程讲师:原厂商讲师

课程基础:

·系统管理员和IT经理,需具备Linux经验

国际认证:CCA Administrator


课程概述:

1.简介

    -为什么是Hadoop?

    -Hadoop的核心部件

    -基础概念

2.HDFS

    -HDFS特性

    -读,写文件

    -NameNode内存的考虑

    -HDFS安全性简介

    -使用NamenodeWeb用户界面

    -使用Hadoop文件Shell

3.数据导入HDFS

    -Flume将数据从外部源导入

    -Sqoop将数据从关系数据库导入

   -REST接口

    -输入数据的最佳实践

4.YARNMapReduce

    -什么是MapReduce?

    -MapReduce基本概念

    -YARN集群的架构

    -资源分配

    -故障恢复

    -使用YARNWeb用户界面

    -MapReduce版本1

5.为你的Hadoop集群做计划

    -通用计划的考虑

    -选择正确的硬件

    -对网络的考虑

    -配置节点

    -为集群管理做计划

6.Hadoop安装和初始配置

    -部署的类型

    -安装Hadoop

    -具体化Hadoop的配置

    -执行HDFS的初始配置

    -执行YARNMapReduce的初始配置

    -Hadoop日志系统

7.安装配置HiveImpalaPig

    -Hive

    -Impala

    -Pig

8.Hadoop客户端

    -什么是Hadoop客户端?

    -安装配置Hadoop客户端

    -安装配置Hue

    -Hue授权和认证集群的

9.Cloudera管理器

    -Cloudera管理器的动机

    -Cloudera管理器的特性

    -ExpressEnterprise

    -Cloudera管理器拓扑

    -安装Cloudera管理器

    -Cloudera管理器安装hadoop

    -Cloudera管理器执行基本的管理任务

10.集群的高级配置

    -高级配置参数

    -配置Hadoop端口

    -显性地添加或移除主机

    -配置HDFS的机架认知

    -配置HDFS高可用性

11.Hadoop的安全方案

    -Hadoop的安全性的重要

    -Hadoop的安全系统的概念

    -Kerberos是什么,它如何工作

    -Kerberos来守卫Hadoop集群

12.管理,计划工作任务

    -管理正在运行的工作

    -计划Hadoop工作

    -配置FairScheduler

    -Impala的查询计划

13.集群的维护

    -检查HDFS状态

    -在不同集群间拷贝数据

    -添加和挪去集群的节点

    -重新平衡集群

    -集群升级

14.集群的监控和故障诊断

    -通用系统监控

    -监控Hadoop集群

    -常见的HadoopClusters的故障排除

    -常见的错误配置