首页 > 编程知识 正文

研究计算机如何自动获取知识的学科(人类是被设计好的程序)

时间:2023-05-05 09:22:57 阅读:80586 作者:4803

全文共有2468个字,预计学习时间需要7分钟

Dabl是数据分析基线库的缩写。 Dabl背后的理念是自动执行监控学习,从而减少常见任务的模板。

建立预测模型时,数据需要进行清理、分析,通过不同的参数调整运行各种模型,得到最佳的精度。 虽然这样的操作需要多行代码和人为操作,但是通过dabl处理,只需要几行代码就可以节省处理大量数据的时间和开销。

这个库的主要目的不是每次重复同样的操作步骤,而是让数据科学家思考问题的说明,做出更多的惯例分析。 Dabl从scikit-learn和auto-sklearn那里得到了灵感。

安装和输入

只需输入一个库,该库dabl就可以完成所有必要的任务。

! pip安装数据库

导入数据库获取数据

Dabl中几乎没有可以直接加载和使用的数据帧。 也可以使用普通的Pandas样式读取外部数据。 在包括成人人口普查数据集在内的数据框架中工作。

df=dabl.datasets.load_adult (

DF .头() )

数据清理

数据清理是第一步。 Dabl将检测数据集中的数据类型,并尝试应用相应的转换。 Dabl的目标是为数据可视化和模型提供足够的数据清理。 如果需要,还可以执行自定义清理。

dabl.clean(x,type _ hints=无,return _ types=假,target _ col=无,伯博斯=0)

X :数据帧

type_hinta:语义类型(连续、类别、顺序、文本等)检测失败时

return_type:是否返回估计的类型

target_colstring:Target列永远不会被删除

DATA_clean=dabl.clean(df,类型_ hints={ ' capital-gain ' : ' continuous ' } )

数据清除

数据集说明

从以前的意义上讲, info ) )应用于数据集后,将得到初始分析。 也可以使用dabl.data _ types ) )来预测各列的数据类型。

dabl.detect_types(x,type _ hints=无,max _ int _ cardinality='自动',dirty _浮点_阈值=0.9,

Dabl .检测类型(DF )

探索性数据分析

dabl.plot ()可以迅速分析数据。 但是,dabl并不保证表现出数据的所有有价值的部分。 这提供了重要的特性、相互作用、问题的难易程度等非常高的见解,人们必须再次执行传统的定制绘制进行具体的分析。

dabl.plot(x,y=None,target_col=None,type_hints=None,scatter_alpha='auto ',scatter _ size=' aaane ),其中,目标-类型。

dabl.plot(df,目标_科尔=' income ' )

tion">

不可思议吧,只用了半行代码就得到了相当不错的结果。

模型构建

Simplecclassifier 被用来寻找最佳拟合模型,它对子采样数据应用几个基线。dabl的灵感来源于scikit-learn(由于dabl受到scikit-learn的启发),它帮助我们指定数据,以符合 scikit-learn 风格。方法有两种:

model = dabl.SimpleClassifier(random_state=0) X = data_clean.drop("income", axis=1) y = data_clean.income model.fit(X, y)

或者:

model = dabl.SimpleClassifier(random_state=0).fit(data_clean,target_col="income")

输出:

正如你所看到的,它通过不同的参数调整应用了几个模型,找到最佳拟合模型和准确率。Simplecclassifier 还可以进行预处理缺失值插补和一次性编码等预处理,可以使用 dabl.explain ()检查模型:

dabl.explain(model)

Dabl的局限性

现在,dabl仍不能用于处理文本数据、时间序列数据、神经网络模型,图像、音频和视频数据也完全超出了应用范围。其未来目标是:

· 现成的可视化

· 模型诊断

· 高效模型搜索

· 类型检测

· 自动预处理

· 良好的管道组合

真的需要人类数据科学家吗?

Dabl 非常有趣,并且是自动化的,但是它仍然处于开发阶段,只有非常少的特性和功能。笔者建议你浏览一下dabl提供的API列表。我个人任务部署一个功能齐全、个性丰富的版本仍然需要很长时间,如果它能完成,业界必须信任和接受它。

数据科学就是这样一个领域,业界每天都会生成一个独特的数据集和问题陈述/需求,因此在某个时候,人类的干预是必要的。自动化数据科学将是未来的趋势,但不会立刻到来,所以你可以专注于提高技能或学习数据科学。

图源:《福布斯》

记住,一定要提高自己的技能,每当你认为自己已经掌握了足够的知识时,就把这篇文章当做一个警钟,它可以让你不停地学习新的技能。

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。