基于Hive的离线数据处理方法
摘 要:Hive是一种建立在Hadoop上的数据仓库基础构架。Hive系统结构中的解析器,可以将用户编写的HiveQL语句进行解析,解析出相应的MapReduce程序,本文使用Hive对某网站用户评论数据进行分析,快速实现MapReduce统计任务。
关键词:Hive;HQL;MapReduce
中图分类号:TB 文献标识码:A doi:10.19311/j.cnki.1672-3198.2022.05.077
1 Hive的概述
Hive起源于Facebook,Facebook公司有着大量的日志数据,面对这样海量的结构化数据, Facebook开发团队想到设计一种使用SQL语言就能够对日志数据查询分析的工具,这样只需要懂SQL语言,就能够胜任大数据分析方面的工作,大大节省开发人员的学习成本,Hive就这样应运而生了。(剩余3167字)