首页 > 编程知识 正文

大数据技术意义,简要谈谈大数据在你周围有哪些应用?

时间:2023-05-04 19:23:45 阅读:230782 作者:3320

一、概述:

这里有几个名词的解释,为了方便大家以后查资料、自学或参加相关培训与智能现钞管理相关的技术,对这些名词的范围作了解释。以下概念都是很粗略的解释,不同学派不同群体的看法相差很大,但都是在浏览了大量资料的基础上得出的概述。

随着互联网的快速发展,互联网产品的接入用户量级和接入场景范围不断扩大,加之越来越复杂的业务逻辑,不可避免地产生大规模的数据。因此,使得近年来数据科学领域相关概念的热度不断攀升,大数据、数据挖掘、机器学习、AI、NLP、图像识别、模式识别等概念一拥进入大众视野,但这些概念的模糊定义给想要进入数据科学领域的学习者带来了很大的难度,为了对数据科学领域有更系统的认知,我想对各个模块做一个关系梳理,以更好的进行深入学习。

二、几个概念的解释:

统计学:采用特定统计手段对被测对象进行描述,以达到对被测对象一定程度甚至趋近本质的了解

数据挖掘:透过被测对象的表象发现隐藏在背后的深层规律,以及看似没有关系的事物之间的联系,以此来洞察未来

机器学习:通过计算机实现并采用特定算法发现被测对象的隐含规律联系,并以此来作预测

AI(人工智能):使计算机模拟或实现人类的学习行为,以获取新的知识或技能,使之不断改善自身的性能

 

可以看到,统计学是一种理论方法;数据挖掘是一类任务,这类任务以发现对象背后的规律和联系维目标,其实现手段基于统计学原理,但可以采用非常多的方法和工具,也应用在很广泛的领域;相对于数据挖掘的广泛性,机器学习则限定在采用计算机实现的某些特定机器学习算法中,是做了限制的数据挖掘;而AI、NLP、图像识别、模式识别是机器学习更加具体的应用领域,利用机器学习(/深度学习)实现在人工智能、自然语言、图像等领域的产品和功能;

 

三、应用

 

统计分析:

目的:通过数据统计各个指标,一般是对业务和数据有个宏观上的了解

应用举例:一般统计分为自下向上或自上向下如:

1. 按时间,如天、月、年

2. 按照范围层级,如:市、省、全国

算法:求和、均值等

数据挖掘:

目的:在数据中挖掘有价值的信息,供商业节省成本、提高利润、优化运营。在推荐系统和运营管理中非常重要。

应用举例:挖掘机具状况异常以及出现这些异常与什么相关等。主要是通过流水或日志数据查看其中的异常。

算法:相关性分析算法、关联分析算法、聚类算法,以及分类和回归算法等。

机器学习:

目的:一般用于预测,分为分类预测和回归预测。分类预测指根据目标的一些属性预测它属于哪一类,回归预测是指根据目标的一些属性预测它的另一个属性的值是多少。

应用举例:

分类:已知某个网点的交易额分布规律,判断该网点是否在乡村(由于是否只有两个取值,所以它是一个二分类问题);已知某个网点的交易额分布规律,判断它属于乡村、郊区还是城市(由于分行有多个,所以它是一个多分类问题);

回归:已知某个网点某天的天气、预测该网点当天的交易总额(总额是一个连续的数值,所以是回归问题),若我们预测的不是当天交易总额,而是该天交易额是否大于100万,那么这就变成一个分类问题了,在这了我们可以看到将预测属性的连续值变成一个离散值的时候就可以将回归问题转换为分类问题,而且在某种意义上他俩是等价的,在分析一个问题时先判断它是一个分类问题还是回归问题,但在学习算法时他们的方法是相同的。

深度学习:

在机器学习中有种算法叫神经网络,深度学习(又叫做深度神经网络)是一种神经网络算法,但深度学习算法与普通的神经网络算法相比模型更复杂,参数更多,但他们都属于神经网络算法。与传统的机器学习算法相比,深度学习有很好的“记忆性”,所以经常用深度学习来模拟人的学习和记忆效果,如自然语言处理、图像识别等。所以我们经常听的OCR是使用深度学习算法来实现的。

人工智能:

人工智能是指一切能模拟人脑完成一些工作的事情,狭义上的人工智能的核心是“人脑”,此外包括一些仿真技术等,所以深度学习更贴近于人工智能的概念,而由于深度学习在工业上的成熟应用,很多号称使用了人工智能技术的产品实际上是用了深度学习算法,常见的是图像和自然语言相关的产品;除了深度学习外,人工智能的其他常见的算法包括一些搜索算法和优化算法,如:模拟退火算法(通过模拟炼钢时火退去的过程而抽象出的一种算法)、蚁群搜索算法(模拟蚁群找食物的过程而抽象出的一种算法)、遗传算法(模拟基因遗传与变异过程抽象出的算法)等。此处所讲的神经网络算法是通过模拟人类大脑神经元间信息传递的过程。

通过人工智能的概念可以看到,神经网络也好,深度学习也好,他们既能归为机器学习算法和数据挖掘算法中,又能归类为人工智能算法中。而更为广义的人工智能定义为可以帮助人类完成某项计算或思考过程的程序,也就是在广义人工智能中机器学习是人工智能的子集,狭义中恰恰相反,狭义的人工智能中人工智能是机器学习的子集。在实际生产中人们一般会将主要使用深度学习算法的产品说成人工智能产品。

 

以上是对三个概念不交叉的描述,他们之间还有一些方法是重叠的,如:

一些数据挖掘方法也是统计分析方法:如相关性分析(计算协方差、相关系数等)

一些机器学习方法也是数据挖掘方法:如所有的分类算法、聚类算法、回归算法都可以看成数据挖掘;

一些人工智能算法也是机器学习算法:如神经网络等

大数据:

此外还有一个名词是大数据,单纯的说“大数据技术”一般是指一些采集、加工、存储、计算大量数据的技术,如:Kafka、Storm、Hadoop、hive、Cassendra、neo4j、Spark等,这些技术都是基于分布式的。但大数据产品一般是指结合大数据技术数据挖掘方法的产品,单纯的大数据技术没有价值,但通过大数据技术来进行数据挖掘将会带来很大的收获。

综上所述:

人们常常将使用上述技术的产品分为人工智能产品和大数据产品,简单来说使用了深度学习的产品可以说成是人工智能产品,使用了一些分布式计算机框架和器学习算法的产品称为大数据产品产品。而那些没有使用大数据技术,单纯使用了机器学习算法的产品一般也称为人工智能产品。

四、如何学习

但在学习过程中,如果是单纯的想学好某一种技术,需要对这几个词所包含的内容如下:

统计分析:侧重统计学,包含各种统计量、抽样方法和检验方法。需要一些统计和概率论方面的知识。

数据挖掘:侧重对数据价值的挖掘,包含常见的机器学习算法,尤其是相关性分析和聚类分析算法,通过挖掘数据,发现数据中的一些特点或特例。需要一些统计学基础,涉及的理论不深。

机器学习:主要做预测任务,一般分为训练和预测两个阶段。需要一些算法、高等数学、线性代数和统计学知识。

深度学习:深度学习分为具体的领域,图像、语音、自然语言等,需要更高深的数学知识。

人工智能:需要一些计算机算法知识。

大数据:需要一些编程基础,尤其是Java。

数据科学:数据科学一般包含数据处理、算法应用、系统架构等综合知识。

如果是做产品,上述几方面可以简单涉及一下,可以从简单的模型入手,掌握简单的计算原理和使用方法,忽略算法的实现细节(这一点在调参和数据处理中非常重要),做一个好的产品首先要了解这些技术有哪些功能,其次是如何把这些技术应用到具体场景或针对某个具体场景下的问题如何使用相关的技术解决这个问题,这需要我们多浏览一些相关的文章、帖子、讲座等,多了解一些成熟的产品他们是怎么用这些技术的。

五、实践

下面的12行Python代码简单实现了回归和分类任务

简单讲任何算法的使用都可通过三行代码实现,以下是使用Python的Sk-learn库完成一个机器学习任务

1.多元线性回归
#定义模型(model)
model = LinearRegression()
#训练模型(model)
model.fit(train_data, train_label)
#预测结果(test_label)
test_label=model.predict(test_data)
2.GBDT回归
#定义模型(model)
model = GradientBoostingRegressor()
#训练模型(model)
model.fit(train_data, train_label)
#预测结果(test_label)
test_label=model.predict(test_data)

以上是回归算法,分类算法类似,也可以通过三行代码实现
1.决策树分类
#定义模型(model)
model = DecisionTreeClassifier()
#训练模型(model)
model.fit(train_data, train_label)
#预测结果(test_label)
test_label=model.predict(test_data)
2.GBDT分类
#定义模型(model)
model = GradientBoostingClassifier()
#训练模型(model)
model.fit(train_data, train_label)
#预测结果(test_label)
test_label=model.predict(test_data)

可以看到运用算法很简单,因为现在流行的框架将很多算法封装地很好,只需了解算法的功能,就算不懂算法也能实现想要完成的任务。

如果要更好地运用这些技术,我们不得不了解各种技术的内在原理。这对于我们分析问题、定位bug、解决bug、调优等非常重要。

 

六、建议

新技术的思想很好,都是在前面技术的基础上发展而来的,各种技术和算法很杂,建议大家选择典型的几种进行了解或学习。

HTML div三边怎么加边框win7中qq截图快捷键是什么

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。