大华技术支持笔试题目,新华三硬件工程师笔试

大华2022提前批、数据挖掘笔试数据挖掘笔试大华2022提前批、数据挖掘笔试1 .主题简介2 .主题答案

面试岗位：【提前批-研发中心】2022届数据挖掘工程师

1 .主题概述

一共42题，25题单选，15题多选，1题sql数据库，1题简答。

前12张照片失效了。遗憾的是，主题从13条路开始。

2 .主题答复单选

属于以下机器学习生成模式的是() )。

a .天真贝叶斯

B.SVM

C.CRF

D.Kmeans

答案： a。

常见生成模型：判别式分析、朴素贝叶斯、k邻域(KNN )、混合zzdzjy模型、隐马尔可夫模型(HMM )、贝叶斯网络、Sigmoid Blief Networks、马尔可夫随机场

判别式模型：线性回归、逻辑回归、神经网络、支持向量机(SVM )、zzdzjy过程、条件随机场(CRF )、分类和回归树)。

2 .以下不适用于注释不平衡样本分类的测量方法是() ) ) )。

A.F1-score

B.AUC

c .精确度

d.(准确率召回率)/2

答案： a

最常用的是F1-score、召回率(recall )、精度(precision )、准确率(TPR )。

常规的分类评价指标可能无效。例如，如果将所有样品归类为大类，准确率、准确率等都很高。在这种情况下，AUC时的最高评价指标。

可以使用原型选择技术降低不平衡水平。选出那些重要的样品。一体化选择(OSS )是一种预处理技术(在模型训练之前使用)，可以解决范畴失衡问题。

从另一方面看，可以增加小类样本的数量，从而可以使用过采样和原型生成技术。

在K-Fold检验中，原则上每个数据集应保持类样本的比例相同或近似，如果每个数据集的小班样本数量过少，应降低k的值，并获知小班样本数量足够。

一般来说，如果不事先处理不平衡问题，对于小分类的样本错误率很高，大多数或者所有小分类的样本都会被错误分类。

3 .均匀正十面体掷骰子的信息熵为() ) ) )。

答案： 3.32bit，log (2，10 ) )

4 .以下为无向图的() ) ) )。

a .有条件随机场

b .贝叶斯网络

C.sigmoid信念网

d .隐马尔可夫网络

答案： a

条件随机场(conditional random field，CRF ) )。

3359 blog.csdn.net/QQ _ 28743951/article/details/60465524

贝叶斯网络

3359 blog.csdn.net/QQ _ 37315988/article/details/114157176

sigmoid信念网

3359 blog.csdn.net/cengjing 12/article/details/106753530？ UTM _ medium=distribute.PC _ relevant.none-task-blog-2~default~blogcommendfrombaidu~default-5.control ded

隐马尔可夫网络

3358 blog.itpub.net/69942346/view space-2652334 /

6 .关于下面的XG boost，错误的是() ) )。

a.XG boost具有正则化

b.XG boost无法自动处理缺少的值

C.XG boost是用两个阶段的甜花展开的

D.XGBOOST使用了列采样机制

答案： b

33559 www.cn blogs.com/man tch/p/11164221.html

3359 blog.csdn.net/weixin _ 35410816/article/details/112459528

7 .神经网络的Dropout技术可以用以下哪种技术实现类似的效果(

a .映射

b .堆叠

C.Bagging

D.Boosting

答案： c

类似于机器学习中常见的Bagging取平均的作用：

首先，回到标准模型，没有dropout。用同一训练数据训练五个不同的神经网络通常会得到五个不同的结果。此时，可以采用“五个结果取平均”或“多数获胜的投票策略”来决定最终结果。例如，如果三个网络的判断结果为数字9，则真实结果为数字9，其他两个网络很可能得出错误的结果。这种“综合取平均”的策略通常可以有效地防止过拟合问题。由于不同的网络可能会发生不同的过拟合，取平均可能会抵消一些“相反”的拟合。 dropout会降低不同的隐性神经

元就类似在训练不同的网络，随机删掉一半隐藏神经元导致网络结构已经不同，整个dropout过程就相当于对很多个不同的神经网络取平均。而不同的网络产生不同的过拟合，一些互为“反向”的拟合相互抵消就可以达到整体上减少过拟合。
Mapping映射
https://blog.csdn.net/qq_23483285/article/details/88657747
Stacking
https://blog.csdn.net/maqunfi/article/details/82220115
集成学习：并行化Bagging自助聚集和串行生成Boosting
https://blog.csdn.net/qq_18668137/article/details/81135888
1.将多个分类方法聚集在一起，以提高分类的准确率（可以是相同or不同算法）
2.集成学习法由训练数据构建一组基分类器，然后通过对每个基分类器的预测进行投票来进行分类
3.严格来说，集成学习并不算是一种分类器，而是一种分类器结合的方法。
4.如果把单个分类器比作一个决策者的话，集成学习的方法就相当于多个决策者共同进行一项决策。
8.盒子A有2个红球和3个蓝球，盒子B有3个红球和1个蓝球，按照以下方式选择一个球:
1)选择一个盒子。选择盒子A和盒子B的概率分别是1/3，2/3
2)从上一步选的盒子里选择一个球。该盒子里所有球被选择的概率是相等的
如果最后选出来的球是红球，那它是从盒子A中选出来的概率是
A.4/19
B.5/19
C.2/9
D.19/30
答案：A
P(A|红)=P(红|A)P(A)/P(红）
P(红|A)=2/5
P(A)=1/3
P(红)=1/32/5+2/33/4
P(A|红)=P(红|A)P(A)/P(红）=2/51/3/(2/51/3+3/42/3)=4/19
9.在一个长度为L的有序数列中寻找两个数，使得两数之积等于某个指定值的最快算法的平均时间复杂度是
A.O(L)
B.O(log(L))
C.O(Llog(L))
kkdgz(L^2)
答案：无
10.下列说法错误的是（）
A.在AdaBoost算法中，所有被分错的样本的权重更新比例相同
B.SVM对噪声(如来自其他分部的噪声样本)鲁棒
C.给定N个数据点，如果其中一半用于训练，一半用于测试，则训练误差和测试误差之间的差别会随着N的增加而减少
D.Bagging的各个预测为数权重相同
答案：B
SVM本身对噪声具有一定的鲁棒性，但实验证明，是当噪声率低于一定水平的噪声对SVM没有太大影响，但随着噪声率的不断增加，分类器的识别率会降低。
11.在区间(0,2]上任取三个实数，它们之和大于1.5的概率是
A.9/32
B.3/8
C.3/16
D.9/128
12.对于关联规则A->B，考虑兴趣度度量M=(P(B)A)-P(B))/(1P(B))，以下说法正确的是
A.当P(A， B)增加，P(A)和P(B)保持不变时，M减小
B.当P(A)增加，P(A,B)和P(B)保持不变时，M增大
C.当P(B)增加，P(A,B)和P(B)保持不变时，M减小
D.在行或列缩放操作下，该度量值保持不变
13.以下描述正确的是
A.KNN算法中K值对分类效果影响较为明显，一般K值较大时，对噪声比较敏感
B.集成学习算法存在过拟合、鲁棒性不强等问题
C.决策树算法ID3算法使用的是信息增益比作为特征划分的标准
D.朴素贝叶斯算法对异常点不敏感
答案：D
A.K值得选取非常重要，如果当K的取值过小时，一旦有噪声得成分存在们将会对预测产生比较大影响，例如取K值为1时，一旦最近的一个点是噪声，那么就会出现偏差，K值的减小就意味着整体模型变得复杂，容易发生过拟合；
如果K的值取的过大时，就相当于用较大邻域中的训练实例进行预测，学习的近似误差会增大。这时与输入目标点较远实例也会对预测起作用，使预测发生错误。K值的增大就意味着整体的模型变得简单；
B.对缺失数据不太敏感，算法也比较简单，常用于文本分类。需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
C.决策树算法之ID3（基于信息增益的最优特征选取）
D.https://blog.csdn.net/zhaodedong/article/details/97460050
14.下列说法不正确的是
A.梯度下降法是利用当前位置的负梯度作为搜索方向的方法
B.批量梯度下降和随机梯度下降相比，一个优势是对于大规模样本效率很高
C.牛顿法和梯度下降法相比，一个劣势是求解复杂，一个优势是收救速度加快
D.共轭梯度法仅需利用一阶导数的信息，但是收敛速度高于梯度下降法
答案：B
批量梯度每次要对所有样本进行训练，不适用于大规模样本
随机梯度每次抽取部分样本，收敛速度快
https://www.cnblogs.com/shixiangwan/p/7532830.html

多选
15.下列关于探索数据分析常用图表的说法，正常的有()
A.探索型数据分析常用的图表包括条形图，直方图，饼图，折线图，散点图，箱型图等
B.箱型图可以用于异常数据的展示
C.绝大部分情况下使用饼图代昔条形图能更加直观的展示数据之间的特征和比对
D.在任何情况下都应该避免使用饼图
答案：AB
16.表分区的优点有哪些?
A.增强可用性
B.改善性能
C.均衡I/0
D.维护轻松
答案：ABCD
1、改善查询性能:对分区对象的查询可以仅搜索自己关心的分区，提高检索速度2、增强可用性:如果表的某个分区出现故障，表在其他分区的数据仍然可用;3、维护方便:如果表的某个分区出现故障，需要修复数据，只修复该分区即可;4、均衡I/0:可以把不同的分区映射到磁盘以平衡I/0，改善整个系统性能。
17.数据仓库是随着时间变化的，下面的描述正确的是?
A.数据仓库随时间变化不断增加新的数据内容
B.捕捉到的新数据会覆盖原来的快照
C.数据仓库随事件变化不断删去旧的数据内容
D.数据仓库中包含大量的综合数据，这些综合数据会随看时间的变化不断的进行重新综合
答案：ABD
18.以下哪些方法适合用来对高维数据进行降维
A.主成分分析PCA
B.线性判别法LDA
C.聚类分析
D.LASSO
答案：ABCD
https://blog.csdn.net/w5688414/article/details/79382239
19.假设你使用log-loss函数作为评估指标，下面这些选项中，哪些是对log-loss的正确解释
A.log-loss越低，模型越好
B.如果一个分类器对不正确的分类很自信，log-loss会严重的批评它
C.对于一个特例而言，假设一个正确的类别得到一个非常低的预测的概率，那么log-loss的分布会非常大
答案：ABC
20.在k-均值算法中，以下哪些选项可用于获得全局最小
A.调整迭代次数
B.找到最佳的k值
C.尝试不同的初始化中心点
答案：ABC
21.噪声数据处理的方法主要有
A.分箱
B.聚类
C.关联分析
答案：ABC
https://blog.csdn.net/weixin_42144636/article/details/81584372
22.以下为神经网络中的常用的权值初始化方法的有
A.初始化为零
B.Xavier随机初始化
C.He初始化
D.lecun初始化
答案：
权值初始化的方法主要有：常量初始化（constant）、zzdzjy分布初始化（gaussian）、positive_unitball初始化、均匀分布初始化（uniform）、xavier初始化、msra初始化、双线性初始化（bilinear），He初始化
23.下列属于无监督学习的是
A.DBSCAN
B.SVM
C.CRF
D.KMEANS
答案：AD
SVM、CRF分类监督学习，DBSCAN、KMEANS无监督聚类
24.以下有利于缓解样本不平衡问题的措施有
A.上采样
B.下采样
C.调整类别权重系数
D.数据增强
答案：CD(不确定)
25.变量选择时用来选择最好的判别器子集，如果要考虑模型效率，我们应该做哪些变量选择的考虑?
A.多个变量其实有相同的用处
B.变量对于模型的解释有多大的作用
C.特征携带的信息
D.交叉验证
答案：ACD
26.当我们构造线性模型时，我们注意变量间的相关性，在相关矩阵中搜索相关系数时，如果我们发现3对变量的相关系数是(变量1和变量2变量2和变量3变量3和变量1)是-0.980.451.23，我们可以得出什么结论
A.变量1和遍历是相关的
B.变量1和变量2高度相关，因此可以删除其中一个变量
C.变量3和变量1的相关系数是错误的
答案：ABC
27.下列哪些叙述是正确的
A.随机森林可以降低方差
B.Adaboost 可以降低方差
C.GBDT可以降低偏差(梯度提升决策树)
D.xgboost可以降低偏差
答案：AC
B、D降低偏差
28.下列说法正确的有
A.随机变量X服从均匀分布的时候熵最大
B.随机变量X服从标准正态分布的时候熵最大
C.L1正则化等价于权重服从zzdzjy先验分布
D.L1正则化等价于权重服从cxdxte先验分布
答案：AD
L1正则化可通过假设权重w的先验分布为cxdxte分布，由最大后验概率估计导出。
L2正则化可通过假设权重w的先验分布为zzdzjy分布，由最大后验概率估计导出。
29.关于机器学习算法正确的是
A.LR模型在加入正则化项后Variance将增大
B.xgboost和GDBT都是属于boosting算法
C.xgboost和随机森林都是属于bagging算法
D.线性SVM是寻找最小边缘的超平面的一个分类器
答案：BD
A.过拟合时是高variance,加入正则化项减少过拟合，因此variance会减少。
C.随机森林是bagging算法
30.优秀团队team表包含团队名称(td. mc)、团队编号(td bh);员工表emp包含员工所属团队编号(yg td bh)、员工姓名(yg xm)、员工绩效分数(yg fs); 请用sq实现获取优秀团队中绩效分数最高的员工。
31. 基本循环神经网络为什么会梯度消失或爆炸? LSTM如何缓解梯度消失和爆炸
https://www.cnblogs.com/bonelee/p/10475453.html