当前位置:首页 > 报告详情

第二章 大数据离线批处理场景化解决方案.pdf

上传人: li 编号:29733 2021-02-07 93页 1.72MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了大数据离线批处理的概念、应用场景、常用组件的使用方法以及简单介绍了离线批处理实战。 1. 离线批处理概念:离线批处理是指对海量历史数据进行处理和分析,生成结果数据,供下一步数据应用使用的过程。离线批处理的特点包括处理数据格式多样、支持SQL类作业和自定义作业、处理数据量巨大、处理时间要求不高。 2. 常用组件:HDFS(分布式文件系统)、YARN(资源调度引擎)、MapReduce(大数据批处理引擎)、Hive(大数据SQL批处理引擎)、Spark(基于内存的数据处理引擎)。 3. 离线批处理实战:以某公司购物网站为例,通过Loader将网站日志数据导入到HDFS,然后通过Hive进行数据计算,最终得到相关业务指标的数据。 4. 数据分层处理:将数据分为不同的层次,如ODS层、DWD层、DWS层、ADS层,以满足不同业务需求。 本文通过介绍大数据离线批处理的概念、应用场景、常用组件的使用方法以及简单介绍了离线批处理实战,为读者提供了大数据离线批处理的基本了解。
离线批处理的特点有哪些? Hive的自定义函数有哪些类型? SparkSQL适合哪些应用场景?
客服
商务合作
小程序
服务号
折叠