Hadoop学习 三

Hey

Hadoop学习中。

  • 数据来源层:数据库(结构化数据) 文件日志(半结构化数据) 视频、ppt等(非结构化数据)
  • 数据传输层:Sqoop数据传递(负责导数据库里的数据) Flume日志收集(定时读取日志) Kafka消息队列(缓冲队列)
  • 数据存储层:HDFS文件存储 Kafka内部也可以存储数据,默认1G HBase非关系型数据库,以键值对形式存储
  • 资源管理层:YARN资源管理
  • 数据计算层:
    • 离线计算:MapReduce离线计算(Hive-数据查询,Mahout-数据挖掘)、Spark Core内存计算(SparkMlib-数据挖掘,SparkR-数据分析,SparkSql-数据查询,SparkStreaming-实时计算)、Storm实时计算(较为少用)、Flink
  • 任务调度层 Oozie任务调度、Azkaban任务调度
  • Zookeeper 负责整个集群的配置调度
  • 业务模型层 业务模型、数据可视化、业务应用 avatar