2)是从web服务器上汇聚日志到HDFS,是数据分析系统的数据采集,此部分工作由数据分析平台建设团队负责,具体的技术实现有很多方式: Shell脚本 优点:轻量级,开发简单 缺点:对日志采集过程中的容错处理不便控制 Java采集程序 优点:可对采集过程实现精细控制 缺点:开发工作量大 Flume日志采集框架 成熟的开源日志采集系统,且本身就是hadoop生态体系中的一员,与hadoop体系中的各种框架组件具有天生的亲和力,可扩展性强