机器学习实战记录（1）

决策树——划分数据集

def splitDataSet(dataSet, axis, value):		
	retDataSet = []										#创建返回的数据集列表
	for featVec in dataSet: 							#遍历数据集
		if featVec[axis] == value:
			reducedFeatVec = featVec[:axis]				#去掉axis特征
			reducedFeatVec.extend(featVec[axis+1:]) 	#将符合条件的添加到返回的数据集
			retDataSet.append(reducedFeatVec)
	return retDataSet		  							#返回划分后的数据集

这个代码就是按axis划分，然后每次把它去掉。

def splitDataSet(dataSet, axis, value):

dataSet：这是输入的数据集，通常是一个二维列表，其中每个子列表代表一个样本，最后一项通常是标签（分类）。
axis：这个参数是整数，表示当前划分的特征的索引位置。假设我们的数据集有多个特征（列），axis 就指定了你想要按哪一个特征来划分数据集。
value：这个参数是我们在数据集中按 axis 这个特征划分时，要求该特征的取值为 value。即：我们希望选择所有在此特征上值为 value 的样本。

返回的 `retDataSet`

retDataSet 是一个空列表，用来保存符合条件的子集。函数会遍历 dataSet，每次找到符合条件的样本（即特征 axis 的值为 value），就将该样本的特征信息（去掉当前特征）加入到 retDataSet。

retDataSet = [] # 创建返回的数据集列表

创建一个空的列表 retDataSet，用来保存符合条件的子集。

python

复制代码

for featVec in dataSet: # 遍历数据集中的每一个样本

使用 for 循环遍历 dataSet 中的每一行数据（每个 featVec）。每个 featVec 是一个样本，它包含多个特征值，通常最后一个元素是标签（类别）

if featVec[axis] == value:

对于每一个样本 featVec，判断该样本的特征 axis 对应的取值是否等于 value。如果该样本在 axis 特征上的取值与 value 相等，就满足条件，应该将该样本加入返回的子集 retDataSet 中。

reducedFeatVec = featVec[:axis] # 去掉当前特征（axis）

通过 featVec[:axis] 获取当前样本的特征，去掉 axis 位置的特征。比如，如果数据集中有5个特征（第0列到第4列），且 axis = 2，那么 featVec[:axis] 就是将样本中第2列之前的特征提取出来（不包括第2列），即 [featVec[0], featVec[1]]。

reducedFeatVec.extend(featVec[axis+1:]) # 将符合条件的特征值部分加入返回的数据集

featVec[axis+1:] 表示去掉了 axis 位置的特征后的部分，即从 axis+1 到最后的特征。将这部分特征信息添加到 reducedFeatVec 中。extend 方法会将一个列表的元素加入到另一个列表中，确保 reducedFeatVec 包含了除了当前特征 axis 外的所有特征。

return retDataSet # 返回划分后的数据集

最后，函数返回划分后的子集 retDataSet，它包含了所有在特定特征 axis 上取值为 value 的样本（每个样本去掉了 axis 特征）。

假设有如下数据集（`dataSet`）：

dataSet = [
    ['青年', '否', '否', '一般', '不放贷'],
    ['青年', '否', '是', '好', '放贷'],
    ['青年', '是', '否', '好', '放贷'],
    ['青年', '是', '是', '一般', '不放贷'],
    ['中年', '否', '否', '一般', '不放贷'],
    ['中年', '否', '是', '好', '放贷'],
    ['中年', '是', '否', '好', '放贷'],
    ['中年', '是', '是', '一般', '不放贷'],
    ['老年', '否', '否', '一般', '不放贷'],
    ['老年', '否', '是', '好', '放贷'],
    ['老年', '是', '否', '好', '放贷'],
    ['老年', '是', '是', '一般', '不放贷']
]

假设我们希望根据第二个特征“是否有工作”（axis=1）进行划分，我们调用 splitDataSet 函数，并指定取值 否：

result = splitDataSet(dataSet, 1, '否')

在这个例子中，axis=1 表示我们正在根据第二个特征（“是否有工作”）进行划分，value='否' 表示我们选择特征值为“否”的样本。调用 splitDataSet 函数后，返回的 result 是：

[
    ['青年', '否', '否', '一般', '不放贷'],
    ['青年', '否', '是', '好', '放贷'],
    ['中年', '否', '否', '一般', '不放贷'],
    ['中年', '否', '是', '好', '放贷'],
    ['老年', '否', '否', '一般', '不放贷'],
    ['老年', '否', '是', '好', '放贷']
]

这些样本的第二个特征都是“否”。可以看到，函数成功地将数据集按第二个特征值为“否”进行划分，且去除了“是否有工作”这一特征，返回了包含其余特征的子集。

秒客网

机器学习实战记录（1）

决策树——划分数据集

返回的 `retDataSet`

假设有如下数据集（`dataSet`）：

相关文章

机器学习实战记录（1）

决策树——划分数据集

返回的 retDataSet

假设有如下数据集（dataSet）：

相关文章

返回的 `retDataSet`

假设有如下数据集（`dataSet`）：