excel表格大数据处理,大数据报表可视化工具

大数据数仓之报表开发1 .在背景大数据开发中，主要数据分析目的可以分为两类。一种是根据历史数据(即使是实时几仓，在收到数据时，其实已经是历史数据)进行数据规律和结果提取，一种是根据历史数据，训练模型，进行未来的数据预测和分类等。前者可以根据现有的数据提取数据规则和数据结果，此时称为报告开发。借鉴神策系统，报表开发可以分为固定维度报表开发、固定维度自由组合报表开发和自由维度报表开发。固定维报表的开发通常是固定指标，但会添加固定维，如年、月、日等

一定维度内的自定义组合分析

灵活的自定义分析

2 .报告的分类从上述说明中可以看出，根据数据维度和计算难度，报告可以分为三种固定报告。在离线的几仓场景中，往往可以使用hive、spark或mapreduce程序与脚本定时(通常每天定时任务的滚动计算)结合运行来计算这些指标

注：数仓通常进行分层处理。通常先处理原始数据，然后放入ODS层，再处理ODS层的数据，然后放入DWD层。 DWS层的结果是根据DWD计算的。因此，整个数据流是具有优先级的恒定维中的组合报告，即典型的cube。可以使用hive的三种语法with cube

组集

角色升级

但是请注意，这三种语法在实际开发中，即使维数很长时间，实际使用也并不友好。还需要将计算后的结果放入HBase或mysql中，以方便外部快速结果查询

可以使用现有的工具。 druid或kylin kylin是纯预期计算框架。设置需要计算的cube，设置需要计算的维组合，然后与kylin的rest api或jdbc接口组合，可以让kylin每天进行滚动计算。 kylin还将计算的结果自己放入HBase中。 (HBase可以提供子秒级别的数据访问，但必须基于行密钥或索引查询。)。

druid具有轻度预聚合，数据查询也有加速效果

灵活定制查询(也称为即席查询)要求非常高的计算能力。如果未进行预计算或预聚合，且数据量较大，则需要非常高的计算能力才能满足即席查询的秒要求。神策使用的方案是impala，但是对应大量数据的计算，还是受限于impala自身的限制。内部实际上也进行了很多优化，据说构想中包含了一定的提前聚合和预期计算等，所以神策在国内实际上属于领导者地位，属于独角兽presto的是后起之秀，在社区内分为两个分支presto的计算性能实际上比impala弱，但与presto的内存表组合后，性能会大幅提高。也就是说，需要一些存储器占有量和数据量。

而且，presto的社区很活跃，版本迭代很快。有大企业的支持，个人的人为性能超过impala是意料之中的事。