Hadoop 和 BI 如何结合?搭建一个基于 Hadoop+Hive 的数据仓库,它的前端展现如何实现?如何实现 BI?

2025-03-12 15:56:04
推荐回答(4个)
回答1:

刚好不久前做过一个,使用hadoop+hive+elasticsearch给公司做的BI。

过程是这样的:

  1. 数据由产生端向数据收集服务器发送请求,json文本形式存在收集服务器磁盘上。

  2. 定时任务,通过MR Job将数据清洗整理修复分类,云端持久化,之后的数据作为BI的基础数据存入hive。

  3. 定时任务,每天跑hive sql(写了一个动态渲染sql语句的引擎),更新累积表,并分析出具体各个指标的分析结果,存入elasticsearch。

  4. 前端用的highcharts,jquery请求后端,传入一些范围限制条件,后端拿到限制条件组出查询语句,从ES中取出符合的结果,返给前端。

  5. 前端展现,即是分类的指标,筛选条件,指标内有图表和详细数据,以及多条件多指标横纵对比,导出等等。

回答2:

hadoop是一个开源的大数据分析软件,或者说编程模式。它是通过分布式的方式处理大数据的,因为开元的原因现在很多的企业或多或少的在运用hadoop的技术来解决一些大数据的问题,在数据仓库方面hadoop是非常强大的。但在数据集市以及实时的分析展现层面,hadoop也有着明显的不足,现在一个比较好的解决方案是架设hadoop的数据仓库而数据集市以及实时分析展现层面使用永洪科技的大数据产品,能够很好地解决hadoop的分时间长以及其他的问题。

回答3:

那些认为已经有数据仓库的传统企业不需要Hadoop的,很快就要out了。
据我所知,很多银行已经开始评估将data warehouse迁移到Hadoop相关产品上来了,倒不是为了利用Hadoop的低成本优势做传统BI,而是看中大数据平台上的各种成熟的machine learning,data mining,大数据对传统行业的改造和洗牌刚刚开始。

至于传统BI工具如何结合Hive,接口上问题不大,JDBC,ODBC都可以,自己写thrift client也问题不大,麻烦在于,目前Hive(以及Impala,Shark)这些支持的都不是标准SQL,历史遗留下来的那些动辄几页的SQL根本没法在Hive上执行。

回答4:

搜索easyhadoop