首页 > 编程知识 正文

数学建模需要哪些知识,数学建模入门

时间:2023-05-04 10:13:04 阅读:53813 作者:102

前言:数据预处理是美国赛事C问题最重要的组成部分,非常考验对问题的理解和抽象。 我们的重点应该放在数据处理而不是算法上,算法选择合适的就可以了,不需要选择高的。 介绍数模中数据预处理涉及的一些重要性。

文章目录1 .数据获取和目标1.1数据获取1.2目标2 .原始数据缺失值处理和异常值检测2.1缺失值处理2.1.1邻域替换【matlab的文件丢失方法】2.1.2插值法2.1.2.1分段三阶hehersing方法响铃/预测填充2.2异常值检测2.2.1依达拉奉标准【异常值发现】2.2.2异常值置换3 .特征选择与处理3.1特征选择3.1.1 sklearn中特征选择3.1.1.1低方差特征去除3.2.2

1 .数据获取和目标1.1数据获取

以美国比赛的C题为例,20年、21年的数据压缩前分别为4.6MB和662.8MB。 由此可见,美国比赛的c题对数据量的要求越来越高。 除此之外,如果需要其他数据集,则需要从4开始找到合适的站点进行搜索。

获得数据后,通常是csv或excel文件,我们通常使用python的pandas库进行数据预处理。 具体内容包括原始数据异常值检测、缺失值处理以及特征选择与处理。

通常将数据转换为pandas.DataFrame进行操作。 见博文https://blog.csdn.net/m0 _ 46246301/article/details/109554066

1.2目标应根据题意,将主题需求抽象为合适的数学模型,可能涉及分类、聚类、拟合、预测、评价、优化等方面。 为此,通过设定大的方向,以流程图的形式制作出发分散的树形图,即各小目标,来完成我们的整个模型框架,从各小目标分别处理数据。 处理流程如下。

2 .原始数据缺失值处理和异常值检测2.1缺失值处理2.1.1邻域置换【matlab的fillmissing方法】置换前/后的非缺失值,将最近的非缺失值置换相邻的非缺失值线性插值进行test _ data1=fill missing (tetel test _ data1=fill missing (test _ data,' nearest ' ); test _ data1=fill missing (test _ data,' linear '; 2.1.2插值法插值2.1.2.1分段三次Hermite插值% x是已知采样点的横坐标,y是已知采样点的纵坐标% new_x是与插入点相对应的横坐标,返回p是new_x被输入插值多项式new_x )2.1.2.2三次样条插值法(其中x是已知采样点的横坐标,y是已知采样点的纵坐标(new_x是与插入点相对应的横坐标,返回p是new_x引入插值多项式的值p=splining

2.1.3 KNN算法基于样本观测值之间的相关性,利用ckdwx距离寻找k个最类似于缺失观测的样本中的观测,并填充缺失值。

请参阅sklearn库实现文章

2.1.4拟合/预测填充选择合适的拟合/预测模型,直接填充拟合/预测即可。

2.2异常值检测2.2.1依达拉奉指南【异常值的发现】参考文章https://blog.csdn.net/m0 _ 46246301/article/details/106562077

对于pandas dataframe,可以通过直接求出标准偏差sigma进行筛选来发现异常值。

2.2.2置换异常值的置换方法与缺损值的置换一致,我们可以直接将其视为缺损值进行处理。 置换方法如上所述。

3 .特征选择和处理3.1特征选择特征选择是一个抽象过程,直接取决于1.2中主题的抽象。

关于如何选择、理解和思考特征

能读知道的文章

3.1.1 sklearn的特征sklearn.feature_selection模块中的类选择可用于数据集的特征选择/降维,以提高预测模型的精度或高维数据中心

3.1.1.1移除低色散特性会移除所有色散不满足阈值的特性。 缺省情况下,所有方差为0的特性(即,所有采样中值完全相同的特性)将被移除。

froms klearn.feature _ selectionimportvariancethresholdx=[ 0,0,1,0 ]、[ 1,0,0 ]、[ 0,1,0 ]、[

些超过80%的数据都为1或0的特征sel = VarianceThreshold(threshold=(.8 * (1 - .8)))sel.fit_transform(X)'''array([[0, 1], [1, 0], [0, 0], [1, 1], [1, 0], [1, 1]])移除了第一列特征,第一列中特征值为0的概率达到了 p = 5/6 > .8 ''' 3.1.1.2 单变量特征选择

单变量特征选择基于单变量的统计测试来选择最佳特征。它可以看作预测模型的一项预处理。

SelectKBest移除得分前k名以外的所有特征用于回归:f_regression、mutual_info_regression用于分类:chi2、f_classif、mutual_info_classif from sklearn.datasets import load_irisfrom sklearn.feature_selection import SelectKBestfrom sklearn.feature_selection import chi2iris = load_iris()X, y = iris.data, iris.targetprint(X.shape)X_new = SelectKBest(chi2, k=2).fit_transform(X, y)print(X_new.shape) 3.1.1.3 递归特征消除 3.1.1.4 SelectFromModel选择特征 …

详细内容请参考文章

3.2 标准化、归一化、中心化 3.2.1 标准化

对不同特征维度的数据进行伸缩变换,使不同度量之间的特征具有可比性,同时不该改变原始数据的分布状态,转化为无量纲的纯数值后,便于不同单位或量级的指标能够进行比较、加权。

优点

使得不同度量之间的特征具有可比性;对目标函数的影响体现在几何分布(离散型概率分布)上,而非数值上。不改变原始数据的分布。 3.2.2 归一化

对不同特征维度的数据进行伸缩变换,使各个特征维度对目标函数的影响权重使一致的,使扁平分布伸缩成圆形分布。

优点

提高迭代求解的收敛速度和精度。 3.2.3 中心化

一个平移的过程,平移后数据中心为原点。例如在使用PCA之前需要进行中心化,才能更好的表示原数据的分布情况;或是在神经网络训练的过程中。

详细介绍内容请参考文章

多种标准化的python代码可参考

3.3 数据集划分

用于训练的数据集通常会划分为训练集和测试集【一般7:3左右】

可以直接使用sklearn库的train_test_split进行划分

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(x,y,test_size=0.3) 4.常用网站

有时题目要求自己查找数据,或是题目给出的数据不足以用来构建我们的模型,还需题外数据加以辅助说明,此时查询数据的网站就显得十分重要了,网站如下:

1、http://www.census.gov/
美国统计局(统计调查局或普查局)官方网站
2、http://www.bls.gov/
美国劳工部
3、http://www.stat-usa.gov/
美国商务部的官方网站
4、http://hermia.sourceoecd.org/vl=11336507/cl=72/nw=1/rpsv/factbook/
OECD的官方网站
5、http://www.usitc.gov/
美国国际贸易委员会
6、http://a257.g.akamaitech.net/7/257/2422/17feb20051700/www.gpoaccess.gov/eop/download.html
美国总统经济报告历年的的PDF文本下载,以及历年的有关数据下载,绝对权威,非常有用。
7、http://www.ustr.gov/Document_Library/Reports_Publications/2005/2005_NTE_Report/Section_Index.html
美国贸易谈判代表办公室官方网站,每年都有关于贸易壁垒的评估报告,可以下载。
8、http://www.eu.int/comm/trade/issues/bilateral/data.htm
欧盟对外贸易数据
9、http://europa.eu.int/comm/trade/issues/bilateral/countries/usa/index_en.htm
欧盟官方网站,本网页是关于欧盟与美国关系的,有数据可用
10、http://www.eurunion.org/
欧盟驻美国使团官方网站。有许多有关欧美经贸关系的文章和报道以及报告。
10、http://www.useu.be/
美国驻欧盟官方网站,和上面一个同样重要。
12、http://www.state.gov/p/eur/
美国国务院欧盟事务局官方网站,
13、http://www.usembassy.org.uk/euro300.html
美国驻英国大使馆官方网站
14、http://www.usinfo.org/chinese.htm
美国资讯网,是研究美国经济、文化、历史很好的一个网站,有很多美国经济方面的信息和资料。
15、http://www.eurunion.org/profile/facts.htm
欧盟与美国的贸易有关统计
16、http://www.doc.gov/
美国商务部
17、http://www.wto.org/
世界贸易组织
18、http://www.usembassy.at/en/policy/us_eu.htm
美国驻奥地利大使馆(有很多有用的资料)
19、http://www.usembassy.org.uk/trade.html
美国驻英国大使馆
20、http://www.useu.be/Categories/Trade/Index.htm
一个特别有用的关于美国和欧盟关系的网站,资料颇多。
21、http://tse.export.gov/ITAHome.aspx?UniqueURL=totktu55uoytvlzhfmzfft45-2005-5-29-21-28-55
美国进出口数据的非常好的一个网站
22、http://www.usaexportimport.com/trade_and_economic_statistics.html
列举了很多有关美国贸易和经济数据查询的链接

常用网站来自该文章

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。