基于Hadoop与Spark的大数据处理平台的构建研究

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要:鉴于当前的数据治理管控方法缺乏统一标准约束,治理管控效果比较差,故此设计一种基于Hadoop与Spark大数据平台的数据治理管控方法。使用Apache Atlas元数据管理工具,配合Hadoop与Spark平台完成管理工具的伸缩和扩展,实现元数据管理,利用Hadoop与Spark大数据平台中自带的分布式文件系统GFS的结构,内置的大量块服务器与客户端功能使用的过程中进行交互,搭建并行计算框架,数据治理过程主要针对数据的一致性、完整性和实时性三个方面进行治理过程设计。(剩余4418字)

monitor
客服机器人