首页 > 编程知识 正文

etl数据仓库bi项目,数据仓库工程师和etl工程师区别

时间:2023-05-04 18:40:48 阅读:158282 作者:3640

用33558www.Sina.com/ETL流程来说,将原始数据从各种数据库、各种服务器的不同业务日志规范化为同一类型的格式,约定分隔符,然后导入分布式文件系统HDFS,进一步进行业务

就ETL流程而言,原始数据必须从各种数据库、各种服务器的不同业务日志规范化为相同类型的格式,并约定分隔符,然后导入到分布式文件系统HDFS中。 而且,必须定义业务系统和数据格式并给出规格,完成数据收集

光解释数据仓库的概念可能就没意思了。 从不同的角色开始吧

概述:我是手机公司的老板,今天向董事局报告。 准备报告,介绍过去三年用户的增加、用户的剩余、用户的活跃度、手机中每个APP的使用率等。 如果下面没有我,我一定没有BI的话,会被逼得走投无路的吧。 请参阅。

老板我是非技术BI。 我每天看竞品分析报告,看双十一的销量,看各种评论,知道自己的产品有哪些短板有哪些优点,我分析南北地域的差异,国内外客户的喜好,总之在手机领域有非常强的行业解读能力和数据解读能力,我今天,为了让上司提交报告书,让ETL工程师提交这次报告书的数据,需要洗脸。 根据这个数据进行一定的解读。 为什么这个月手机不如上个月卖得好,为什么用户流失越来越严重,这些都得由我来做。

BI:我是食物链最底层的辛苦工作人员的ETL工程师。 您可以编写shell、hadoop/hive/hbase和超复杂逻辑的sql。 今天不能自己计算数据的BI又会帮我跑一些数据。 我本想向她要求过程,但要求她的是

如果你以为我每天都做这么多事,那你就错了。 我平时的工作不仅仅是完成上级交给我的任务。 它还负责数据ETL流程、数据建模、定时任务分配等。 你可以把所有的事情都拿出来写书。

用ETL过程来说,必须将原始数据从各种数据库、各种服务器的不同业务日志规范化为相同类型的格式,并约定分隔符,然后导入到分布式文件系统HDFS中。 此外,定义业务系统和数据格式并给出规格,数据采集完成后,还会出现中间表、数据过滤、格式统一、ID统一、维度统一、不同数据现象产生的数据。 结束后,你呢

总之需要收集各种各样的数据,进行各种处理,导入各种各样的导出。 有意思吗?

但是这些数据仓库非常初级,其中ETL工程师能发挥的空间太多了

1、一般情况下,BI-ETL老板会发布报告,在此期间bi可以直接计算数据吗? sql太复杂了,可以标记所有的数据吗? BI和上司想要什么?

2、ETL工程师可以自动化数据采集,规范业务日志格式,一切都可以配置,但这些都是基于N 1的。 也就是说,今天发生了什么,要到明天才能看到。 那么,有可以实时或准实时进行数据分析的系统吗? 参考双11大屏幕,如果xhdty不能知道12日前是否成交,不打破该组数据就不足为奇了。

3、目前大多数分析系统都是基于离线计算(HADOOP/ODPS )的。 那么,这里有问题。 运营和BI想看数据,但是必须离线慢慢跑来看。 那么,有没有能支持更大数据量、复杂逻辑和毫秒数据输出的系统?

ETL工程师

如果对数据的价值进行分层,这里有很多分层的方法,所以只列举一个。 曾经有人把它分成五个阶层

第一层:向上司提供传统财务报表等决策支持

第二层:为数据化非常彻底的淘宝运营商等运营提供决策支持

第三层:支持产品。 例如,有些产品经理们拿着报告每天看着自己按钮的放置位置进行研究,对吧

第4层)数据用于生产。 例如,直接连接广告系统以产生利润。 例如,直接连接推荐系统向用户推荐商品,实现千人千人,利用手机APP直接向不同用户发送推送消息

第五层:大数据交换,数据直接利好

大多数公司如果能达到前两个水平就已经很好了。 如果能达到第三水平的话,就已经很棘手了。 达到了第四个水平和第五个水平,国内互联网公司不超过两家,大数据应用太大,不知道从何说起,接下来就说吧。

见原文:https://www.ev get.com/article/2016/7/21/24536.html

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。