首页 > 编程知识 正文

大数据云计算下的物联网应用(云速数据挖掘)

时间:2023-05-05 08:47:20 阅读:82861 作者:4769

摘要:云计算是一种新的商业模式,提供无限廉价的存储和计算能力。 数据挖掘中遇到的主要问题是项目集合的空间需求问题,其操作非常巨大。 将数据挖掘技术应用于云计算环境,可以从云服务运营商那里获取项目集合所需的空间,从而解决数据挖掘需要较大空间的问题。 论述并分析了将数据挖掘应用于云计算环境的有效性。

0引言

云计算被描述为一个平台系统或一个软件APP应用程序。 首先,平台系统意味着云计算系统可以实时动态部署、配置、重新部署和重新配置。 在云计算平台上,服务器是物理服务器或虚拟服务器。 云计算通常包含大量的计算资源。

云计算是一种新的商业模式[1-2]。 说明从任务到资源池的计算过程。 资源池由多台计算机组成,允许各种APP根据需要使用计算能力、存储空间和各种软件服务。 云计算的意外之处在于它提供了无限的廉价存储和计算能力,可以存储和挖掘大量数据。

处理wydwl和大数据的方法有很多,但请求处理通常是瓶颈。 识别任务算法通常应用于多维未来空间的广泛检索或最近邻检索[3]。 商业智能和数据仓库可以存储t字节以上的数据。 云计算作为数据挖掘的需求得到了广泛的应用。 Map Reduce是一个程序框架,用于处理大型数据集。 分割、调度和失败处理、通信等详细情况被Map Reduce隐藏[4]。

1云计算技术

云计算不仅仅是一种产品,它是一种由计算资源、软件和各种信息组成的计算服务。 可以通过网络从任何地方使用计算机或其他设备等终端进行访问。 云由相互连接的虚拟机组成,可以动态部署,并显示为一个或多个统一计算资源的并行系统和分布式系统。 云计算基于服务运营商和用户签订的服务水平协议提供服务。

由于数据连接的紧密化和数据量的增长,许多运营商和某些数据中心都将能够动态平衡负载的大型基础架构用作云计算平台。 根据需要将数据分散复制到服务器上,可以大幅提高资源利用率。

“云”是一个灵活的资源运行环境,涉及多个利益相关者,提供可衡量的服务。 这些服务可以分为多个粒度级别。 换句话说,这里提到的云是一个基础平台,可以在各种资源上以不同的形式运行。 这提供了资源和服务的可管理性、灵活性和系统平台的独立性等能力。

2数据挖掘技术

目前已开发了几种主要的数据挖掘技术并应用于数据挖掘项目中包括关联规则、分类、聚类、预测、序列模式。 简要介绍了这些数据挖掘技术的例子。

)1)关联规则

关联规则是最广为人知的数据挖掘技术。 关于关联规则挖掘的研究可以分为Apriori算法研究和频繁模式生长算法研究[5](FP-growth生长等)两种类型。 关联规则中,一个模式的发现基于同一交易数据库中特定项目和其他项目之间的关系。 例如,该技术在市场购物篮分析中用于判断哪些产品的顾客经常一起购买。 根据该数据业务开展适当的营销活动,将销售更多的产品,从而获得更大的利润。

)2)分类

分类是一种基于机器学习的经典数据挖掘技术。 分类方法利用决策树、线性规划、神经网络、统计等数学方法实现。 在分类过程中,软件可以学习如何将数据项分类为不同的组。 例如,如果“将分类应用于离开公司的员工的历史记录,预测当前员工将来很可能会离开”,则将员工的记录分成两组,然后使用“离开”、“离开”和数据挖掘软件将员工分成各组

(3)聚类

聚类分析是数据挖掘技术中非常有意义或有用的自动聚类技术。 与分类技术不同,聚类技术定义了类和类中的对象。 在分类中,对象被分配到预定义的类。 以图书馆为例,图书馆有很多书的种类,让读者在这样广泛的主题中找到相关主题的书目是个很大的问题。 利用聚类技术,将相似类型的图书汇总,或放在同一书架上,用标签标明有意义的名称。 这样,读者在想要获得书的主题时,就可以不在整个图书馆里寻找,而只需要去那个书架就可以找到。

(4)预测

如其名称所示,预测是用于发现自变量之间以及自变量与自变量之间关系的数据挖掘技术。 例如,预测分析技术考虑到销售额是自变量,利润可能是因素变量,可以预测未来的销售利润,从过去的销售数据和利润数据中可以得到用于预测利润的回归拟合曲线。

)5)时序模式

序列模式分析是发现事件之间顺序相关的数据挖掘技术。 发现的模式是用于识别数据之间关系的进一步分析。

2010年,Kawuu W. Lin等人[6]提出了多任务频繁模式挖掘战略。 通过在各种仿真条件下的实验,算法在执行时间上表现出了优异的性能。

2011年,胡子哈斯等人[7]提出了云计算环境下的关联规则挖掘算法。 该算法利用Hadoop框架平台和MapReduce编程模型,以在云计算环境中实现并行挖掘为目标,实现了Hadoop框架平台中的MapReduce编程算法在频繁的项目集挖掘中表现出了较高的性能和实用性。

2011年,谷歌航空等[8]提出了k均值算法。 算法通过迭代过程将数据集分成不同的类别,优化评价集群性能的基准函数,各集群内结构紧凑,类别间独立。

3云计算面临的挑战

云计算作为大幅削减成本的技术

受到追捧的同时也面临着诸多挑战性问题。

(1)安全

在使用云计算服务时,用户往往不清楚自己数据存放的位置,这样就会导致用户对数据安全的担心,云计算架构于互联网之上,传统安全问题依然存在,如病毒、木马的入侵、隐私信息的泄露等,新的安全问题也将浮出水面。另外,身份认证、授权与访问控制、责任认定、安全与隐私等技术问题也都还处于探索阶段。

(2)Ad-hoc网络模式

Ad-hoc网络是一个没有有线基础设施支持的移动网络,是一种无线多跳网络。在Ad-Hoc网络中,所有的节点都是由移动主机构成的。与传统的无线网络相比,它不依赖于任何固定的基础设施和管理中心,而是由一组自主的移动节点临时组成,通过移动节点间的相互协作和自我组织,保持网络连接,实现数据的传递。其特点是:动态变化的网络拓扑结构,多条通信,较低的安全性。

(3)管理性

易管理性在云计算中非常重要,与传统的系统相比,受有限的人工干涉、工作负载变化幅度大和多种多样的共享设备这三个因素的影响,云计算中管理更加复杂。大多数情况下,没有协助基于云的应用开发的数据库管理员和系统管理员。甚至是单一用户的负载随时间都会发生大幅度的变化。

(4)庞大的规模

现有的SQL数据库不能简单地处理放置在云中的海量数据。在存储方面,是用不同的事务实现技术,还是用不同的存储技术,或者二者都用来解决一些限制性问题还不确定。在这个问题上,目前在数据库领域内有很多提议。现有的云计算已经开始探索一些简单的实用性方法,但是还需要做更多的工作来融合现有的云计算机制中的好思想。

(5)新的应用场景

预测一些需要预载大量数据集(像股票价格、天气历史数据以及网上检索等)的服务。从私有和公共环境中获取有用信息引起人们越来越多的注意。这就需要从结构化、半结构化或非结构的异构数据中提取出有用信息。

(6)延迟

延迟通常是因特网上的常见问题。云计算中产生的延迟并不是致命的,可以通过智能化设计的高性能基础设施以及灵巧的应用程序来补救。就像桌面计算机最大的瓶颈就是需要更大的硬盘和内存,云计算中延迟的真正原因必须确定和解决。云计算既需要较高性能的集群服务器,也需要高性能的通信设备来支持。

4 结论

数据挖掘技术的主要问题是项目集合需要空间,并且项目级操作是巨大的。如果将数据挖掘应用于云计算环境,将会从云运营商那里按需租赁空间。这种方法解决了需要大量空间的问题。并且用户不再需要考虑空间大小,可直接使用数据挖掘技术。

参考文献

[1] WEISS A. Computing in clouds[J]. ACM Networker, 2007,11(4):18-25.

[2] BUYYA R, VENUGOPAL S. Market-oriented cloud computing: vision, hype, and reality for delivering IT services as computing utilities[C]. Proceedings of the 2008 10th IEEE International Conference on High Performance Computing and Communications, 2008: 5-13.

[3] BOHM C, BERCHTOLD S, MICHEL U. Multidimensional index structures in relational databases[C]. in 1st International Conference on Data Warehousing and Knowledge Discovery, 1999:51-70.

[4] DEAN J, GHEMAWAT S, USENIX. Map Reduce: simplified data processing on large clusters[C]. 6th Symposium on Operating Systems Design and Implementation, 2004:137-149.

[5] Han J, Pei J, Yin Y. Mining frequent patterns without candidate generation[C]. Proc. of ACM Int. Conf. on Management of data (SIGMOD), 2000:1-12.

[6] KAWUU W LIN, LUO Y C. Efficient strategies for many-task frequent pattern mining in cloud computing environments[C]. Systems Man and Cybernetics(SMC), IEEE International Conference,2010(10):620-623.

[7] 留胡子的荷花,cjdbb.云计算环境下关联规则挖掘算法研究[J].计算机技术与发展,2011(2):43-46.

[8] NAIR T R G, MADHURI K L. Data mining using hierarchical virtual k-means approach integrating data fragments in cloud computing environment[C].Cloud Computing and Intelligence Systems(CCIS), IEEE International Conference, 2011(1):230-234.

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。