首页 > 编程知识 正文

数据挖掘技术的功能(大数据是什么的数据挖掘)

时间:2023-05-03 22:50:27 阅读:99691 作者:3948

之前介绍了Fansoft的两个数据挖掘案例:

《一个案例告诉你,数据挖掘如何用于企业生产》

《店铺如何选址?这套算法预测销售额,误差仅300元!》

都是应用于实际业务场景的案例,带来了实实在在的收益!

这个数据挖掘方案到底是什么?

有哪些常见且成熟的挖掘应用可以解决任何问题?

技术架构是什么,需要什么样的工具来支持?

本文将对其进行详细描述。(全文3500字,建议先收藏)

00-1010 Fansoft的数据挖掘方案提供了多种算法功能、脚本支持和技术解决方案,帮助企业快速挖掘数据背后的价值,并结合实际业务实现价值的实现。

数据挖掘方案依赖于BI工具FineBI,包括数据采集、数据清洗(ETL)、算法建模、模型验证和模型应用。

简而言之,我们不仅可以构建数据挖掘模型,还可以使用FineBI在业务应用中直观地显示挖掘结果或指导业务活动。

00-1010 1.内置5种算法:

目前,它集成了时间序列预测、分类、回归、聚类和关联规则五种算法,也是最常见、最成熟的通用算法。

时间序列预测集成了holtwinters算法,可用于预测具有一个或多个非周期性、季节性和周期性特征的时间序列。时间序列算法属于短期预测算法,不适合长期预测。因此,建议在下半个使用周期内预测该值。如果预测时间过长,预测结果可能会有较大的误差。在实际应用中,时间序列预测常用于预测未来的销售。例如,如果您有两年的历史月度销售数据,则可以预测未来三个月的销售额。

分类算法融合了神经网络和决策树算法。这两种算法都是典型的分类算法,在实际应用中的应用远不止时间序列预测。例如,分类算法可用于预测具有多种因素的销售额、预测用户类别偏好、对用户价值进行分类以及保持可预测性等。是一款全才,可以用在各行各业,各种场景。

回归算法集成了线性回归和岭回归算法,回归算法也常用于预测。对于因变量和自变量之间存在线性关系的场景,预测效果往往很好。

聚类算法集成了最常用的kmeans算法,常用于将相似的事物归为一类。与分类算法不同,分类算法是有监督学习,聚类算法是无监督学习。它们之间有很多重叠的应用场景,但满足算法的数据有完全不同的特点。

关联规则集成了aprior算法,最常用的关联规则是购物篮分析。当然,它们也可以用于其他场景,如疾病预防。

2.支持python和R脚本:

除了内置算法外,还集成了python和R脚本,可以用来完成数据清洗、特征选择、特征工程构建、模型训练等。训练好的模型也可以从外部读取执行,训练好的模型也可以保存在本地供第三方系统读取执行。除了这些步骤,它还支持调用python和R官方包或第三方包来调用模型训练的内置算法以外的算法。

简而言之,他们可以使用python或R语言脚本来做他们能做的任何事情,例如,当数据采集完成时,他们可以使用python编写爬虫来获取外部数据作为原始数据的一部分,例如,当数据统计和分析完成时,他们可以直接调用打包的库来执行它,例如,当模型训练完成时,他们可以调用机器学习包中的其他算法来进行模型训练。

>

3、智能挖掘:

智能挖掘定义为用户除了输入数据之外不需要做任何操作就能得到结果的挖掘过程,智能挖掘是帆软的自研算法,主要用于时间序列预测。实现了从时序分析到时序建模到时序模型调参的全自动化,最终会选择最佳的模型作为应用时序模型。智能挖掘中包含了移动平均、加权平均、holt-winters、airma所有用于时间序列预测的算法,在实际应用中测试结果显示智能挖掘预测结果远远优于人工时序预测结果。

智能挖掘的诞生一是为了最大程度的减少用户操作过程,一是为了降低使用数据挖掘的门槛,使用智能挖掘功能不需要了解时间序列预测各种算法内部是如何执行的、各个参数代表什么含义,真正意义上让任何人都用上数据挖掘的同时降低用户操作难度,是智能挖掘诞生以及后续成长的核心价值。

4、一站式应用平台:

之于数据挖掘来讲,单纯的模型构建训练功能、单纯的ETL+模型构建训练功能在实际生产中都是不切合的,在算法模型的基础上还需要业务应用才能真正发挥数据挖掘的价值。

结合FineBI自身的ETL功能与可视化展示,数据挖掘可以从数据获取——ETL——模型训练——模型输出以及最终的可视化应用展示,甚至业务系统集成应用,整条生产线的一站式平台搭建,除了本身的应用集成之外还支持第三方系统直接调用已经训练好的模型作为系统数据处理层更好的支撑第三方系统运作。另外,FineBI的数据挖掘也支持常见的挖掘结果写入数据库,第三方系统调用数据库的运作形式。

5、提供成熟的应用解决方案支持:

既然是解决方案,除了产品本身,还是技术项目支撑。

目前帆软数据挖掘团队成功运作过店铺选址、个性化推荐、智能排产、质量检测等应用场景。

每个解决方案都是基于客户实际业务运作体系、业务使用场景以及业务数据提供的,内容包括需求探索确认、数据清洗、特征工程、模型训练、模型验证、模型应用全流程实施过程方案与细节。

举例。

场景应用

1、店铺选址:

适用企业:服装、鞋靴、珠宝、美食等拓店速度快、拓店数量大的这类企业。

业务需求:企业在拓店之前需要评估店址,店址的评估最终表现形式多是新店址未来一年销售额能达到多少,当预估销售额超过企业内部新店标准时就算合格。实际业务中采用人工估算不仅预估值误差大而且人力成本高,因此,切合实际业务来讲,需要使用算法模型来预估新店销售额,作为店铺选址的数据支撑。

解决方案:结合新店址所在区域、商圈的人口密度、消费水平、消费习惯、商圈口碑、同区域的老店铺历史销售额等数据,使用算法训练模型,预测出新店未来某个时间范围的年度销售额、季度销售额、月度销售额,以预测值作为业务开展依据。

达成效果:企业可以以预测销售额来开展新店址选择业务,并且根据中间结果做相应的成本投入安排以及销售额调控措施,帮助企业降低成本的同时提升企业收益,使企业达到利益最大化。

2、质量检测:

适用企业:军工、制药、轮胎、汽车等对质量有高要求的制造业企业。

业务需求:制造业企业生产出来的产品需要质量检测合格之后才能投入市场,需要借助数据挖掘工具来简化/去掉现有检测环节,从而提高生产效率、生产质量以及降低企业生产成本。

解决方案:结合历史生产各种质量产品对应的原材料数据、生产流程数据、生产参数数据以及最终产品质量数据等,使用算法训练模型,找出与最终产品质量相关的因素以及对刚生产出来的产品进行质量检测判断,淘汰掉不合格的产品。

达成效果:企业可以根据产品质量相关的因素进行点对点把控以提高产品生产质量和效率,同时使用这套系统能一定程度上取代之前的质量检测方式或降低原有检测工作量。

3、精准营销/个性化推荐:

适用企业:电商、超市、大型商场等从事B2C销售以及部分B2B销售企业。

业务需求:随着消费升级反推产业升级,在海量可供选择商品中,如何给用户推荐他当前最想要、最需要、最满意的产品很大程度上了交易成功与否,给不同的用户推荐各自当前最想要的产品需要大量的规则与算法支撑,也是企业营销的重点。

解决方案:对用户做基于用户基本属性、LBS属性、业务属性、行为属性、特征人群属性、用户分级属性、兴趣偏好属性等属性的用户画像,之后使用各种算法经过推荐召回和推荐排序给用户推荐其当前最想要、最需要、最满意的产品,从而减少用户选择时间以及提升交易成功率。

达成效果:企业能够针对特定人群开展当前时间最适合的促销等活动,企业通过个性化推荐给每个用户推荐不同的商品以及开展的一系列营销活动,企业销售额、成交率、利润率、好评率、回头客等都有明显的提升。

4、智能排产/库存调节:

适用企业:制造业类企业、供货商、销售终端等处于SCM内的企业

业务需求:大量企业存在供货不及时、库存堆积、物流周转不理想的问题,企业需要知道未来一段时间产品的销量、库存剩余可供销售时间、未来一段时间需要生产产品数量等信息,才能更好去开展排产、库存调节等工作,而这些数据需要大量的规则与算法来支撑。

解决方案:以超市生鲜为例,基于超市生鲜历史销售数据、天气数据、日期数据、客流量数据等使用算法建模,预测出未来天粒度、孝顺的月饼、月粒度的生鲜销量,超市根据未来销量开展库存调配与生鲜进货等工作。

达成效果:超市生鲜内产品销售额较之前有所上升,运营成本、材料成本等有非常大的降低幅度,从而使超市的收益有明显提升。

5、设备预测性维护:

适用企业:需要做设备维护的制造业企业类

业务需求:企业生产设备通过定期维修或者随机检修的模式存在人力成本大以及维修不及时导致设备生命短等问题,需要能够监控企业生产设备健康状况并能有检修报警提示,实现生产设备按需检修以降低人力成本和保证设备处于健康状态不影响生产。

解决方案:通过传感器获取设备运行状态中的各项参数数据,基于设备历史运行数据、历史异常运行数据等数据使用算法建模,预测出设备未来一段时间发生设备故障的可能性或者预测出设备下一次设备故障的时间,通过预警形式,提前执行设备维修。

达成效果:通过设备预测性维护,能够降低企业设备维护成本、延长设备生命还能降低企业运营成本,更关键的是通过设备预测性维护,能够保证设备一直处于健康的生产状态,不会导致生产活动异常或者生产延迟等问题。

6、病原分析:

适用企业:医院、制药企业

业务需求:绝大多数的疾病在出现之前都会有一系列的症状或者一些相关的其他疾病,但并不是所有症状或者其他疾病都有很明显的关联关系,即单纯依靠医生来辨别要求医生需要长时间的从医经验。如果能知道某项疾病在出现之前会有哪些症状就能提前预防疾病发生,对于疾病治疗有很大的好处。

解决方案:基于历史病历数据通过算法得出症状与疾病之间的关联关系,然后该关联关系可以作为参考,比如出现A症状得B疾病的置信度有多大一类,具有强烈的相关关系以及前后关系。

达成效果:帮助病人提前发现患有重大疾病的苗头,提早治疗,提高治愈可能性与降低治愈成本。

7、购物篮分析:

适用企业:超市、商场等涉及货物摆放的企业

业务需求:超市、商场购物往往需要购买多种商品,引导用户去购买其他商品是超市和商场都需要做的,超市需要降低用户购买其他商品所花费的时间以及引导用户去购买其他商品,因此,需要将相关联的商品摆放在一起,来达成这种效果。

解决方案:分析历史交易数据、购物清单,通过算法分析出商品之间的关联关系,比如购买了A商品的用户基本都都买了B商品,则即使A、B商品不同种类,也可以将两者放在一起,提高购买率。

达成效果:诸如男士购买了纸尿布还会购买啤酒的经典场景,能够达成用户买了A商品不用去其他位置就能购买B商品和购买了A商品本来想不起购买B商品却提醒他购买了B商品的效果。

最后,对数据挖掘感兴趣的,可以下载FineBI尝试体验下,对整体方案感兴趣的,可以戳下↓↓↓“了解更多”。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。