大数据课程培训中心(大数据的培训课程开始了)

北京大学公共传播与社会发展中心成立于2012年。秉承北京大学的学术精神和人文关怀，致力于社会发展视野下公共传播领域的学术研究、国际交流、媒体培训和公益合作。旨在搭建政、学、商、媒同仁和公益同仁跨界交流合作的平台，通过公共传播促进社会发展，通过社会发展丰富公共传播。

编者按：如果说互联网是一个宝藏，那么大数据就是打开这个宝藏的钥匙。新事物的出现所带来的实现更美好事物的可能性，不仅需要我们的欢呼，更需要我们超乎想象的缜密思考和应用。在北京大学公共传播研讨会2017年春季课程中，特邀中国科学院大学经济与管理学院教授、博士生导师qcdlz教授为大家讲授《大数据分析》的五门课程，梳理大数据的相关技术和原理，启发大家把握未来的历史发展脉络，对“媒介与社会变迁”这一命题有更深刻的理解。本期，我们由qcdlz老师推送北大公共传播课第一课的精华。

名师简介

国家创新发展战略研究会副会长

中国科学院大学经济与管理学院教授、博士生导师

研究领域：网络经济与网络空间战略、创新创业管理、管理智慧与战略。在网络空间和创新创业研究方面，主要承担国家创新发展研究会的政策研究工作；在智慧与策略方面，主要研究中国传统智慧与博弈论的结合。

5相关性和因果关系

大数据的局限性

学术关联研究

大数据的局限性大数据的发展有一个节点，互联网与现实世界同步的信息比例是否能充分反映现实世界的运行规律。超过这个比例，大数据的研究就有价值了；相反，对大数据的研究只会得出扭曲的结论。因此，虚拟化对大数据的价值是最低的。信号噪声增加

当检查数据中的表示时，通常需要考虑这种表示是否是偶然的。如果这种外观看起来不太可能是随机生成的，则称为“统计显著性”。

如果做了足够多不同的相关性测试，偶然的结果将压倒真实的发现。解决上述问题的方法有很多，但这个问题在大数据中会更加严重。

与小规模数据集相比，在大数据的情况下，有太多的比较标准。不仔细分析，真表示与假表示的比值(——)就相当于信噪比(——)，很快就会趋近于零。

数据类型“干草堆”

Qxdls(Nassim Taleb，著名商业思想家，《黑天鹅：如何应对不可知的未来》等书的作者)提出，随着我们拥有的数据越来越多，我们可以发现越来越多的统计显著相关性。在这个巨大的干草堆里，我们要找的针越埋越深。大数据时代的特征之一是“重大”发现的数量被数据膨胀带来的噪音淹没。直觉的价值如果每个人都转向数据，使用大数据工具，那么不可预测性3354，比如人的本能、冒险、意外甚至错误3354，就可能成为区别的关键。如果是这样的话，就要给人的因素，也就是直觉、常识和运气创造一个空间，保证它们不会被数据和机器生成的答案挤掉。

大脑数学很差(请快速计算437的平方根)但是大脑知道社会认知。人善于反映对方的情绪状态，发现不合作的行为，赋予有情绪的事物价值。在社会关系的决策中，情感大于数据。数据不懂背景人善于讲多理由多背景的故事。数据分析不知道怎么叙述，不知道怎么思考。即使是一本普通的小说，数据分析也无法解释思路。

数据偏好趋势当大量个人对某个热门产品迅速产生兴趣时，数据分析可以敏锐地发现这一趋势。一些重要的(也是有利可图的)产品在一开始就被数据拒绝了，只是因为它们的特异性还不为人所知。评估分析的局限性评估分析只提供了一个公众意见的概述，它不是可操作的见解。表扬和批评过于抽象，无法提供有价值的信息。

先理解，后解释。

大数据是资源，也是工具。其目的是告知，而不是解释。意在促进理解，但仍会导致误解。——关键在于人们对它的掌握。人们必须以一种不仅欣赏它的力量，而且承认它的局限性的态度来接受这项技术。

与其总结大数据分析，不如预测。与其回顾，不如预测。大数据不是决策的唯一依据，而是基础之一。正确的决策必须整合各种信息源。

小决策和大决策对于大量的小决策都是有用的，比如亚马逊的个性化推荐。然而，因果关系对于小规模和大规模的决策仍然很重要。“使用”和“支持”已经从使用数据转变为支持数据(即从数字化运营转变为运营数据)。使用数据意味着从已经获得的数据中提取有用的数据，而支持数据则不同。意味着从已经提取的数据中，要看到数据的相关性，继续获取尚未获取的数据，这样才更能指导企业的决策。

教师推荐信

aption">《思考，快与慢》

心理学家及诺贝尔经济学奖得主Daniel Kahneman在《思考，快与慢》中指出我们的大脑有快与慢两种作决定的方式。常用的无意识的“系统1”依赖情感、记忆和经验迅速作出判断，它见闻广博，使我们能够迅速对眼前的情况作出反应。但系统1也很容易上当有意识的“系统2”通过调动注意力来分析和解决问题，并作出决定，它比较慢，不容易出错，但它很懒惰，经常走捷径，直接采纳系统1的直觉型判断结果。这种极其短视的感知对于现实世界的决策过程有很多影响—形式包括内在感受、直觉、有根据的测度和探索，而它会忽略得到大部分数据。

如果只关注于收集和堆砌不竭增多的数据，那么我就有迷失的风险。

学术的相关性研究

问题1：

我们传统理解的大数据的观点并不是完全准确的。比如说大数据研究应该既要全体，又要抽样，这种说法就有问题，大数据中说的全体，也不是真正的全体，而且也不可能用全体数据去做预测。大数据应从相关关系中把握因果关系与必然关系，这种说法不科学，数据因素多了，关联多了，并不一定能找到因果关系，这是不必然的.

解决方式：突破是实现大数据知识发现的前提和关键。

从长远角度来看，依照大数据的个体复杂性和随机性所带来的挑战将促使大数据数学结构的形成，从而导致大数据统一理论的完备。

从短期而言，学术界鼓励发展一种一般性的结构化数据和半结构化、非结构化数据之间的转化原则，以支持大数据的交叉工业应用。管理科学，尤其是基于最优化的理论将在发展大数据知识发现的一般性方法和规律性中发挥重要的作用。

问题2:大数据的复杂形式导致许多对“粗糙知识”的度量和评估相关的研究问题。

解决方式：无论大数据带来了哪种数据异构性，大数据中的“粗糙知识”仍可被看作“一次挖掘”的范畴。通过寻找“二次挖掘”产生的“智能知识”来作为数据异构性和决策异构性之间的桥梁是十分必要的。探索大数据环境下决策结构是如何被改变的，相当于研究如何将诚心的寒风的主观知识参与到决策的过程中。

总结：大数据是一种具有隐藏法则的人造自然，寻找大数据的科学模式将带来对研究大数据之美的一般性方法的探究，尽管这样的探索十分困难，但是如果我们找到了将非结构化、半结构化数据转化成结构化数据的方法，已知的数据挖掘方法将成为大数据挖掘的工具。

8推荐与预测

关联推荐

预测分析

关联挖掘技术

关联规则挖掘的根本目的是寻找商品销售记录中的相关性，从而更好地指导销售策略的制定。空间关联挖掘技术空间关联规则是所谓的“支持-置信”分析。以消费者在超市购买商品为例，如果把每一个消费者的一次购买看作一个事件，考虑从商品X到商品Y的关联规则，支持度是指在所有事件中同时购买商品X和商品Y的比例，置信度则是在所有购买了商品X的事件中也购买商品Y的比例。如果支持度和置信度都超过了相应的阈值，则从X到Y的规则被认为是有效的。时间关联挖掘技术包括顺序关联和周期关联两种模式。顺序关联是指购买了商品X的消费者，倾向于在一个特定的时间间隔后购买商品Y。更严格地说，如果商品X和商品Y之间存在很强的时间关联性，则所有购买过X和Y的消费者购买X和Y的间隔时间的分布具有一个比较窄而高的峰值。

周期关联是同一个商品在被同一个消费者购买时在购买时间上的周期性。

A/B测试是个什么鬼？

A/B测试就是对一个页面的A版本和B版本进行测试，统计哪个版本的点击率更高。最为常见的A/B测试形式叫做灰度测试，也就是对一个公司自有的互联网用户群进行1%、2%、5%、10%等规模的用户测试，然后选择测试效果最好的页面推广到全用户群。A/B测试通用的五步法：分析、假设、构建测试、运行测试、效果评估。预测分析大数据的核心就是预测，预测体现在很多方面。大数据是把数学算法运用到海量的数据上来预测事情发生的可能性。在大数据规律面前，每个人的行为都跟别人一样，没有本质变化，所以商家会比消费者更了消费者的行为。预测性数学模型不算新事物，但正变得越来越准确。数据分析能力终于赶上数据收集能力，分析师不仅有比以往更多的信息可用于构建模型，也拥有在很短时间内通过计算机将信息转化为相关数据的技术。

◆ ◆ ◆ ◆ ◆ ◆

文｜根据课堂内容整理

编辑｜pgdddp

本文为北大公共传播首发版权归作者所有如需转载请联系授权欢迎合作｜投稿pcsdpku@163.com北京大学公共传播研究中心