首页 > 编程知识 正文

新在线广告(spark流式处理的三种数据来源)

时间:2023-05-06 20:40:36 阅读:92346 作者:2235

在Hadoop集群中部署Spark处理引擎,每天处理14TB的事务处理数据。 这就是在线广告平台Altitude Digital最近的实践,主要跟踪用户的社交媒体数据。

altitudedigitalCTO的Manny Puentes表示,Spark将于今年4月中旬开始实施,公司将计算节点从30个扩展到50个,以成功地在Hadoop系统中应用Spark Streaming模型

目前,altitude数字使用的是高清数据仓库软件。 这是Apache的另一种开放源代码技术,用于查询存储在群集上的数据,并以MapR Hadoop发行版为基础。 Puentes说:“Hive是一个长时间运行的报告,一旦崩溃,恢复到TB级数据需要几个小时。” 在测试中,Spark Streaming查询的速度是Hive的4到20倍,所处理的数据集的规模和复杂性会影响查询的速度。

提高查询速度对企业很重要。 因为企业分析APP经常需要执行查询、等待结果、根据结果优化查询,然后再次执行,例如根据视频广告的浏览数据优化广告位置。 如果能够在实践中获得测试性能,分析小组可以在一天内得到复杂查询的回答,可能无需再花四五天时间。 Puentes介绍说:“这对我们的业务很有意义。”

流媒体数据的各种利用方法

AltitudeDigital整合来自各种数据源的数据流,并使用一定的算法基于对cookie的浏览来了解用户的行为。 公司的另一个目标是让在线广告主加速对控制板的访问。 Puentes说:“我们也想实时反馈数据,让广告主有洞察力。”

Spark仍是altitude digital APP应用的技术之一,企业每天通过Spark Streaming处理交易数据,同时使用Concurrent提供的开源缓存软件进行MapReduce Spark也支持批处理,生成速度是MapReduce的100倍。 但是,Puentes表示,他希望使用MapReduce容错机制确保完成任务。

Sharethrough是另一家采用Spark Streaming的在线广告公司,用于支持运行在AWS上的基于Cloudera的Hadoop群集。 Sharethrough从2013年中期开始引入Data积木公司的Spark云,目前在流处理模块上每天运行500GB的互联网点击和广告可视数据。

Spark系统搭载机器学习APP,分析母语广告的效果。 Sharethrough系统集成副总裁Rob Slifka表示,Hadoop集群实施两年后,面向批处理的系统无法满足企业的实时分析需求。 广告商和发行商必须使用几个小时前的数据决定在哪里做广告,这挑战了广告的优化。 Slifka表示,这将变得复杂,因为这取决于Sharethrough平台支持的广告的本质。 标题和触摸面板的文本可以是不同的组合。

数据流和点击率

这个标题-文字的方式更有效。 一次共享; 的测试中,内部广告点击率从不到1%增加到7%,在广告界取得了很大的进步。 之所以采用Spark Streaming,是因为我认为快速识别该广告是最有效的。 Slifka说:“有10种组合,其中5种不好的情况下,我想迅速知道哪5种不好。”

借助数据流技术,企业可以通过不同网站的用户测试不同的广告,并快速分析结果,从而确定哪个广告最有效。 Slifka说:“我们不会选择一个胜者。 通过Spark Streaming,我们将采用一对成为最好的广告。 ”。

Russell Cardullo领导了Spark的技术引进,流式处理使性能检测变得更加重要和困难。 “这需要认识到7*24小时不间断运行。 数据始终在生成。 必须及时了解数据的情况,而不是等问题发生后再解决。 ”

他进一步表示,虽然公司在执行Spark Streaming,但至今只发生了一个处理问题,而且这个问题不是软件本身造成的,而是公司使用了向Spark提供数据的亚马逊Kinesis和RabbitMQ技术造成的

Gartner分析师Nick Heudecker和McKnight咨询公司总裁William McKnight也指出了企业在融合大数据和流处理技术时面临的其他挑战。 包括建立适应数据处理工作负载的高可用性技术体系结构,以及满足企业分析和业务处理的需要,利用流式数据。 Heudecker说:“如果只加速5%的业务流程,而其他95%没有变化,那么意义就不大了。”

关于更多精彩内容,请关注网络分析沙龙的微信。 techxue每天都会给您提供最新的热干货。

网络分析沙龙——网络人实战共享平台。 是一个提供专业商业模式、产品、数据、用户、电子商务、社交媒体、移动互联网等深度分析的信息网站。 请在techxue的公共账户中搜索“techxue”,或者用手机扫描左边的二维码。 获得互联网分析沙龙每天精华内容的推送和最佳搜索体验,参与编辑活动。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。