第三单元 数据预处理
-
运行以下代码
from sklearn.datasets import load_iris
iris_data = load_iris()
iris_data.data.shape
输出结果为(150, 4)。则表示iris数据集包括样本个数为( )。
A.154
B.600
C.4
D.150 -
在Numpy包中,计算标准差的函数为( )。
A.numpy.mean()
B.numpy.var()
C.numpy.median()
D.numpy.std() -
给定df是一个DataFrame对象,对df所有字段进行描述性统计,可以利用的方法为( )。
A.df.describe()
B.df.mean()
C.df.statistics()
D.df.summary() -
运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制饼状图,需要利用的函数为( )。
A.plt.plot()
B.plt.pie()
C.plt.bar()
D.plt.hist() -
运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制折线图,需要利用的函数为( )。
A.plt.hist()
B.plt.pie()
C.plt.plot()
D.plt.bar() -
运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制直方图,需要利用的函数为( )。
A.plt.pie()
B.plt.hist()
C.plt.plot()
D.plt.bar() -
运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制散点图,需要利用的函数为( )。
A.plt.bar()
B.plt.hist()
C.plt.scatter()
D.plt.plot() -
使用最小-最大法进行数据规范化,需要映射的目标区间为[0,100],原来的取值范围是[-10,10]。根据等比映射的原理,一个值8映射到新区间后的值是( )。
A.95
B.80
C.85
D.90 -
使用等距离分箱法进行数据离散化,数据范围为20, 40, 50, 58, 65, 80, 80, 82, 86, 90, 96, 105, 120, 200,区间个数为4。下列属于4个箱的区间是( )。
A.(65,110)
B.(155,200]
C.[20,65]
D.[110,155) -
特征选择方法中,一般的启发式方法有( )。
A.随机选择
B.逐步增加法
C.逐步递减法
D.以上都是 -
关联规则的挖掘算法只能处理( )类型的取值,为此( )是继续其知识发现过程的必要步骤。
A.连续;数据规范化
B.离散;数据离散化
C.离散;数据规范化
D.连续;数据离散化 -
( )是指对描述对象的属性进行重新组合,获得一组反映事物本质的少量的新的属性的过程。( )是指从属性集合中选择那些重要的、与分析任务相关的子集的过程。
A.特征提取;特征选择
B.特征选择;特征提取
C.数据选择;数据提取
D.数据提取;数据选择 -
下列不属于数据预处理原因的是( )。
A.数据可能存在缺失、错误、不一致等问题
B.数据量过于庞大
C.有些数据属性是无用的或者冗余的
D.数据有可能不能很好地反映潜在的模式 -
缺失值处理方法中错误的是( )。
A.对于分类属性,使用同类对象属性值的均值
B.转换为分类问题或数值预测问题
C.对于所有属性都可以使用均值
D.对于离散属性或定性属性,使用众数 -
主成分分析的步骤是( )。
A.中心化数据集-计算协方差矩阵-计算特征根-计算主成分矩阵-得到降维后的数据集
B.中心化数据集-计算主成分矩阵-计算协方差矩阵-计算特征根-得到降维后的数据集
C.计算协方差矩阵-计算特征根-中心化数据集-计算主成分矩阵-得到降维后的数据集
D.计算协方差矩阵-计算主成分矩阵-计算特征根-中心化数据集-得到降维后的数据集 -
下列关于等距离分箱的说法中错误的是( )。
A.等距离分箱可能导致属于某些的取值非常多,而某些又非常少
B.又称为等宽度分箱
C.若区间个数为k,每个区间的间距为I=(max-min)/k
D.等距离分箱能使每个区间内包含的取值个数大致相同 -
使用python处理缺失值的方法中叙述错误的是( )。
A.dropna()删除缺失值
B.fillna()填充缺失值
C.interpolate()使用中位数填充缺失值
D.isnull()判断缺失值 -
最小最大规范化方法MinMaxScaler属于python中的哪个包( )。
A.scipy
B.sklearn
C.numpy
D.pandas -
主成分分析方法PCA属于属于python中的哪个包( )。
A.scipy
B.sklearn
C.numpy
D.pandas -
最小-最大法中,假设需要映射到目标区间为[L,R ],原来的取值范围为[l, r ]。一个值x映射到新区间后的值v的计算方法是( )
-
在利用中文文本绘制词云时,需要在anaoncda的基础上安装哪些工具包( )。
A.Scikit-learn
B.Matplotlib
C.Wordcloud
D.Jieba -
数据清洗的主要目的是将数据集中存在的( )和( )进行处理,降低其对后续数据分析处理的影响。
A.最大值
B.噪声
C.最小值
D.缺失 -
有监督的离散化方法常用的有分箱法和ChiMerge方法。×
-
基于熵的方法可以被看做是自顶向下的分裂方法,ChiMerge则属于自底向上的合并方法。√
-
一种简单的填补缺失值的方法为, 将属于同一类的对象的该属性值的均值赋予此缺失值。√
-
基于熵的离散化方法是常用的有监督的离散化方法。√
-
将数据分为n个等频的箱中,可以⽤箱均值、箱中位数或箱边界光滑数据。√
-
在主成分分析中,每个主成分都是原始变量的线性组合,且各个主成分之间互不相关。√
-
等距离分箱可能导致属于某些区间的取值非常多,而某些区间的取值又非常少。 等频 则能够解决此问题。
-
使用主成分分析法进行数据属性特征提取中,每个新的特征是原有特征的 线性组合。