首页 > 编程知识 正文

大数据具体是干什么的,大数据就业前景及工资

时间:2023-05-03 10:02:04 阅读:53112 作者:2013

大数据预测是大数据最核心的应用,将传统意义的预测扩展到“当前测量”。 大数据预测的优势是将非常困难的预测问题转换成传统小数据集无法实现的相对简单的描述问题。 从预测角度看,大数据预测所得到的结果不仅可以用于处理现实业务的简单客观的结论,也可以用于支持企业经营的决策。

1 .预测是大数据的核心价值

大数据的本质是解决问题,大数据的核心价值在于预测,企业经营的核心也在预测的基础上做出正确的判断。 在谈到大数据的应用时,最常见的应用例子有“股市预测”“流感预测”“消费者行为预测”等。

大数据预测是基于大数据和预测模型预测未来某件事的概率。 把分析从“面向已经发生的过去”变成“面向即将发生的未来”,是大数据和传统数据分析的最大区别。

大数据预测的逻辑基础是,每一次不规律的变化都是事先有征兆的,每一件事都没有痕迹,只要找到征兆和变化之间的规律,就可以预测。 大数据不能确定某件事必然发生,它往往表明一个事件发生的概率。

通过反复试验、大数据的积累,人类可以不断发现各种规律,预测未来。 利用大数据预测可能的灾难,利用大数据分析癌症可能发生的原因,找到治疗方法,是未来惠及人类的事业。

例如,大数据曾被洛杉矶警察局和加州大学用来合作预测犯罪的发生。利用谷歌流感趋势搜索关键词预测禽流感的传播; 麻省理工学院利用手机定位数据和交通数据进行城市规划气象局通过整理最近的气象状况和卫星云图,更准确地判断未来的气象状况。

2 .大数据预测思路改变

过去,人们的决策主要依赖20%的结构化数据,而大数据预测允许利用80%的非结构化数据来做出决策。 大数据预测有更多的数据维度、更快的数据频率和更宽的数据宽度。 与小数据时代相比,大数据预测的思维有三大变化。 不是样品而是样品。 预测效率而不是准确是因果关系而是相关关系。

1 )样品,而不是抽样

在大数据时代,由于缺乏获取整体样本的手段,发明了“随机调查数据”的方法。 理论上,提取样本越随机,越能表示整体样本。 但是问题是获取随机样本的成本非常高,而且需要时间。 人口调查是典型的例子,在一个国家每年很难完成人口调查。 因为随机调查太费时间了。 但是,云计算和大数据技术的出现使我们能够获取足够大的样本数据乃至整体数据。

2 )效率而不是准确性

小数据时代使用采样的方法,因此数据样本的具体运算需要非常准确。 否则,就会“毫厘不爽,损失千里”。 例如,如果总样本从1亿人口中随机抽取1000人进行人口调查,如果1000人的运算有误,则在扩大到1亿人时偏差会变大。 但是,对于所有样本,有多少偏差是多少,不会扩大。

在大数据时代,快速获取大致轮廓和发展脉络远比严格准确重要。 在某些情况下,掌握大量新数据时,准确性并不那么重要。 因为我们还能把握事物的趋势。 基于大数据的简单算法比基于小数据的复杂算法更有效。 数据分析的目的不是用于数据分析,而是用于决策,因此时效性也非常重要。

3 )相关关系而不是因果关系

大数据研究与传统的逻辑推理研究不同,需要对海量数据进行统计检索、比较、聚类、分类等分析归纳,关注数据的相关性或相关性。 相关性是指两个以上变量的取值之间存在某种规则性。 关联性绝对没有,只有可能性。 但是,相关性强的话,一个相关性成功的概率就高。

关联性有助于捕捉现在,预测未来。 如果a和b经常一起发生,我们只要注意到b正在发生,就可以预测a也在发生。

根据关联性,我理解世界不再需要以假设为基础。 这个假说是针对现象确立的关于其发生机制和内在机制的指针假说。 因此,不需要建立哪个搜索词条能够表示流感何时何地流行的假设; 航空公司如何给机票定价; 沃尔玛顾客的烹饪偏好是什么? 相反,我们可以对大数据进行相关分析,找出哪个搜索词条最能说明流感的传播,飞机票价格暴涨,还是飓风期间呆在家里的人最想吃的食物。

采用数据驱动大数据的相关分析法,代替基于虚拟的易错方法。 大数据的相关分析法更准确、更快,而且不易受到偏见的影响。 基于相关分析法的预测是大数据的核心。

相关性分析本身意义重大,同时也为研究因果关系奠定了基础。 通过找出可能相关的东西,可以在此基础上进行进一步的因果关系分析。 如果存在因果关系,则进一步确定原因。 这种便捷机制通过严格的实验降低了因果分析的成本。 也可以从相互关系中找到重要的变量。 这些变量可以用于验证因果关系的实验。

3 .大数据预测典型应用领域

互联网为大数据预测APP应用的普及带来了便利条件,结合国内外案例,以下11个领域是最有机会的大数据预测APP应用领域:

1 )天气预报

天气预报是典型的大数据预测应用领域。 天气预报粒度已由日缩短为时,有严格的时效要求。 基于海量数据按传统方法进行计算,结论已经是明天,预测没有价值,但大数据技术的发展提供了快速的计算能力,大大提高了天气预报的实效

性和准确性。

2)体育赛事预测

2014 年世界杯期间,Google、百度、微软和高盛等公司都推出了比赛结果预测平台。百度的预测结果最为亮眼,全程 64 场比赛的预测准确率为 67%,进入淘汰赛后准确率为 94%。这意味着未来的体育赛事会被大数据预测所掌控。

Google 世界杯预测是基于 Opta Sports 的海量赛事数据来构建最终的预测模型的。百度则是通过搜索过去 5 年内全世界 987 支球队(含国家队和俱乐部队)的 3.7 万场比赛数据,

同时与中国彩票网站乐彩网、欧洲必发指数数据供应商 SPdex 进行数据合作,导入博彩市场的预测数据,建立了一个囊括 199 972 名球员和 1.12 亿条数据的预测模型,并在此基础上进行结果预测。

从互联网公司的成功经验来看,只要有体育赛事历史数据,并且与指数公司进行合作,便可以进行其他赛事的预测,如欧冠、NBA 等赛事。

3)股票市场预测

去年,英国华威商学院和美国波士顿大学物理系的研究发现,用户通过 Google 搜索的金融关键词或许可以预测金融市场的走向,相应的投资战略收益高达 326%。此前则有专家尝试通过 Twitter 博文情绪来预测股市波动。

4)市场物价预测

CPI 用于表征已经发生的物价浮动情况,但统计局的数据并不权威。大数据则可能帮助人们了解未来物价的走向,提前预知通货膨胀或经济危机。最典型的案例莫过于拼搏的灰狼通过阿里 B2B 大数据提前知晓亚洲金融危机。

单个商品的价格预测更加容易,尤其是机票这样的标准化产品,“去哪儿”提供的“机票日历”就是价格预测,它能告知你几个月后机票的大概价位。

由于商品的生产、渠道成本和大概毛利在充分竞争的市场中是相对稳定的,与价格相关的变量是相对固定的,商品的供需关系在电子商务平台上可实时监控,因此价格可以预测。基于预测结果可提供购买时间建议,或者指导商家进行动态价格调整和营销活动以实现利益最大化。

5)用户行为预测

基于用户搜索行为、浏览行为、评论历史和个人资料等数据,互联网业务可以洞察消费者的整体需求,进而进行针对性的产品生产、改进和营销。《纸牌屋》选择演员和剧情,百度基于用户喜好进行精准广告营销,阿里根据天猫用户特征包下生产线定制产品,Amazon 预测用户点击行为提前发货均是受益于互联网用户行为预测。如图 1 所示。


图 1  用户行为预测


受益于传感器技术和物联网的发展,线下的用户行为洞察正在酝酿。免费商用 Wi-Fi,iBeacon 技术、摄像头影像监控、室内定位技术、NFC 传感器网络、排队叫号系统,可以探知用户线下的移动、停留、出行规律等数据,从而进行精准营销或者产品定制。

6)人体健康预测

中医可以通过望闻问切的手段发现一些人体内隐藏的慢性病,甚至通过看体质便可知晓一个人将来可能会出现什么症状。人体体征变化有一定规律,而慢性病发生前人体已经会有一些持续性异常。理论上来说,如果大数据掌握了这样的异常情况,便可以进行慢性病预测。

Nature 新闻与观点报道过 Zeevi 等人的一项研究,即一个人的血糖浓度如何受特定的食物影响的复杂问题。该研究根据肠道中的微生物和其他方面的生理状况,提岀了一种可以提供个性化的食物建议的预测模型,比目前的标准能更准确地预测血糖反应。如图 2 所示。


图 2  血糖浓度预测模型


智能硬件使慢性病的大数据预测变为可能。可穿戴设备和智能健康设备可帮助网络收集人体健康数据,如心率、体重、血脂、血糖、运动量、睡眠量等状况。如果这些数据足够精准、全面,并且有可以形成算法的慢性病预测模式,或许未来这些穿戴设备就会提醒用户身体罹患某种慢性病的风险。

7)疾病疫情预测

疾病疫情预测是指基于人们的搜索情况、购物行为预测大面积疫情暴发的可能性,最经典的“流感预测”便属于此类。如果来自某个区域的“流感”“板蓝根”搜索需求越来越多,自然可以推测该处有流感趋势。

百度已经推出了疾病预测产品,目前可以就流感、肝炎、肺结核、性病这四种疾病,对全国每一个省份以及大多数地级市和区县的活跃度、趋势图等情况,进行全面的监控。未来,百度疾病预测监控的疾病种类将从目前的 4 种扩展到 30 多种,覆盖更多的常见病和流行病。用户可以根据当地的预测结果进行针对性的预防。

8)灾害灾难预测

气象预测是最典型的灾难灾害预测。地震、洪涝、高温、暴雨这些自然灾害如果可以利用大数据的能力进行更加提前的预测和告知,便有助于减灾、防灾、救灾、赈灾。与过往不同的是,过去的数据收集方式存在着有死角、成本高等问题,而在物联网时代,人们可以借助廉价的传感器摄像头和无线通信网络,进行实时的数据监控收集,再利用大数据预测分析,做到更精准的自然灾害预测。

9)环境变迁预测

除了进行短时间微观的天气、灾害预测之外,还可以进行更加长期和宏观的环境和生态变迁预测。森林和农田面积缩小,野生动物植物濒危,海岸线上升,温室效应这些问题是地球面临的“慢性问题”。人类知道越多地球生态系统以及天气形态变化的数据,就越容易模型化未来环境的变迁,进而阻止不好的转变发生。大数据可帮助人类收集、储存和挖掘更多的地球数据,同时还提供了预测的工具。

10)交通行为预测

交通行为预测是指基于用户和车辆的 LBS 定位数据,分析人车出行的个体和群体特征,进行交通行为的预测。交通部门可通过预测不同时点、不同道路的车流量,来进行智能的车辆调度,或应用潮汐车道;用户则可以根据预测结果选择拥堵概率更低的道路。

百度基于地图应用的 LBS 预测涵盖范围更广。它在春运期间可预测人们的迁徙趋势来指导火车线路和航线的设置,在节假日可预测景点的人流量来指导人们的景区选择,平时还有百度热力图来告诉用户城市商圈、动物园等地点的人流情况,从而指导用户出行选择和商家的选点选址。

11)能源消耗预测

力口州电网系统运营中心管理着加州超过 80% 的电网,向 3500 万用户每年输送 2.89 亿兆瓦电力,电力线长度超过 40 000 千米。该中心采用了 Space-Time Insight 的软件进行智能管理,综合分析来自天气、传感器、计量设备等各种数据源的海量数据,预测各地的能源需求变化,进行智能电能调度,平衡全网的电力供应和需求,并对潜在危机做出快速响应。中国智能电网业已在尝试类似的大数据预测应用。

除了上面列举的 11 个领域之外,大数据预测还可被应用在房地产预测、就业情况预测、高考分数线预测、选举结果预测、奥斯卡大奖预测、保险投保者风险评估、金融借贷者还款能力评估等领域,让人类具备可量化、有说服力、可验证的洞察未来的能力,大数据预测的魅力正在释放出来。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。