首页 > 编程知识 正文

excel表格大数据处理,大数据报表可视化工具

时间:2023-05-03 11:34:48 阅读:55020 作者:4129

大数据数仓之报表开发1 .在背景大数据开发中,主要数据分析目的可以分为两类。 一种是根据历史数据(即使是实时几仓,在收到数据时,其实已经是历史数据)进行数据规律和结果提取,一种是根据历史数据,训练模型,进行未来的数据预测和分类等。 前者可以根据现有的数据提取数据规则和数据结果,此时称为报告开发。 借鉴神策系统,报表开发可以分为固定维度报表开发、固定维度自由组合报表开发和自由维度报表开发。 固定维报表的开发通常是固定指标,但会添加固定维,如年、月、日等

一定维度内的自定义组合分析

灵活的自定义分析

2 .报告的分类从上述说明中可以看出,根据数据维度和计算难度,报告可以分为三种固定报告。 在离线的几仓场景中,往往可以使用hive、spark或mapreduce程序与脚本定时(通常每天定时任务的滚动计算)结合运行来计算这些指标

注:数仓通常进行分层处理。 通常先处理原始数据,然后放入ODS层,再处理ODS层的数据,然后放入DWD层。 DWS层的结果是根据DWD计算的。 因此,整个数据流是具有优先级的恒定维中的组合报告,即典型的cube。 可以使用hive的三种语法with cube

组集

角色升级

但是请注意,这三种语法在实际开发中,即使维数很长时间,实际使用也并不友好。 还需要将计算后的结果放入HBase或mysql中,以方便外部快速结果查询

可以使用现有的工具。 druid或kylin kylin是纯预期计算框架。 设置需要计算的cube,设置需要计算的维组合,然后与kylin的rest api或jdbc接口组合,可以让kylin每天进行滚动计算。 kylin还将计算的结果自己放入HBase中。 (HBase可以提供子秒级别的数据访问,但必须基于行密钥或索引查询。)。

druid具有轻度预聚合,数据查询也有加速效果

灵活定制查询(也称为即席查询)要求非常高的计算能力。 如果未进行预计算或预聚合,且数据量较大,则需要非常高的计算能力才能满足即席查询的秒要求。 神策使用的方案是impala,但是对应大量数据的计算,还是受限于impala自身的限制。 内部实际上也进行了很多优化,据说构想中包含了一定的提前聚合和预期计算等,所以神策在国内实际上属于领导者地位,属于独角兽presto的是后起之秀,在社区内分为两个分支presto的计算性能实际上比impala弱,但与presto的内存表组合后,性能会大幅提高。 也就是说,需要一些存储器占有量和数据量。

而且,presto的社区很活跃,版本迭代很快。 有大企业的支持,个人的人为性能超过impala是意料之中的事。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。