本文共 1168 字,大约阅读时间需要 3 分钟。
日志服务功能可以便捷地将日志数据投递到OSS、TableStore、MaxCompute等存储类服务,配合E-MapReduce(Spark、Hive)、MaxCompute进行离线计算。
数据仓库+离线计算是实时计算的补充,两者针对目标不同:
模式 | 优势 | 劣势 | 使用领域 |
---|---|---|---|
实时计算 | 快速 | 计算较为简单 | 增量为主,监控、实时分析 |
离线计算(数据仓库) | 精准、计算能力强 | 较慢 | 全量为主,BI、数据统计、比较 |
目前对于数据分析类需求,同一份数据会同时做实时计算+数据仓库(离线计算)。例如对访问日志:
互联网领域有两种经典的模式讨论:
日志服务提供模式比较偏向Lamdba Architecture。
在创建Logstore后,可以在控制台配置LogShipper支持数据仓库对接,当前支持如下:
(大规模对象存储):
(NoSQL数据存储服务):
(大数据计算服务):
LogShipper提供如下功能:
小A维护了一个论坛,需要对论坛所有访问日志进行审计和离线分析
小A使用日志服务(LOG)收集服务器上日志数据,并且打开了日志投递(LogShipper)功能,日志服务就会自动完成日志收集、投递、以及压缩。有审查需要时,可以将该时间段日志授权给第三方。需要离线分析时,利用E-MapReduce跑一个30分钟离线任务,用最少的成本办了两件事情。
小B是一个开源软件爱好者,喜欢利用Spark进行数据分析,他的需求如下:
通过今天LOG+OSS+EMR+RAM组合,可轻松应对这类需求。
转载地址:http://tcbll.baihongyu.com/