Derive Flag 节点用于指明特定条件,如高血压或客户帐户停用。对于每条记录都会创建一个标志字段,当条件为真时,会在字段中添加代表真的标志值。
真值。指定针对满足以下指定条件的记录要在标志字段中包括的值。缺省值为 T。
假值。对于那些不满足以下指定条件的记录,指定其标志字段中的值。 缺省值为 F。
Derive Nominal 节点用于执行一组 CLEM 条件,以确定每条记录满足的条件。当每条记录满足某个条件时,会将一个值(指示满足哪组条件)添加到新的导出字段。
缺省值。指定不满足任何条件时要使用的值。
将字段设置为。指定满足某个特定条件时要在新字段中输入的值。列表中的每个值都有一个关联条件,该条件由用户在相邻列中指定。
若此条件为真。为集合字段中要列出的每个成员指定条件。使用表达式构建器在可用的函数和字段中进行选择。可以使用箭头和删除按钮对条件进行重新排序或删除。
条件的工作原理是对数据集中特定字段的值进行检验。检验每个条件时,都会为新字段分配上述指定值,以指示满足哪个条件(如果有)。如果不满足任何条件,则会使用缺省值。
二:角色字段
字段的角色用于指定其在模型构建过程中的用法 - 例如,字段是输入还是目标(预测的对象)。
注意:“分区”、“频率”和“记录标识”角色只能分别应用到单个字段。
可用的角色如下:
输入。字段将用作机器学习的输入(预测变量字段)。
目标。字段将用作机器学习的输出或目标(模型将尝试预测的字段之一)。
两者。字段将被 Apriori 节点同时用作输入和输出。所有其他建模节点都将忽略该字段。
无。机器学习将忽略该字段。测量级别已设置为无类型的字段将在角色列中自动设置为无。
分区。指明字段用于将数据分区为单独的样本(用于训练、测试,也可用于验证)。该字段必须属于实例化集合类型,具有两个或三个可能值(在“字段值”对话框中定义)。第一个值表示训练样本,第二个值表示测试样本,第三个值(如果存在)表示验证样本。所有其他值都将被忽略,且不能使用标志字段。请注意,要在分析中使用分区,必须在相应的模型构建或分析节点的“模型选项”选项卡中启用分区。启用分区时,会将对于分区字段具有空值的记录从分析中排除。如果已在流中定义多个分区字段,那么必须在每个相应建模节点的“字段”选项卡中指定单一分区字段。如果数据中不存在适合的字段,您可以使用“分区”节点或“派生”节点进行创建。请参阅主题分区节点,了解更多信息。
分割。(仅名义、有序和标志字段)指定为字段的每个可能值构建一个模型。
频率。 (仅数字字段)设置此角色允许将字段值用作记录的频率加权因子。仅 C&R 树、CHAID、QUEST 和线性模型支持此功能;所有其他节点将忽略此角色。在支持此功能的建模节点的“字段”选项卡上,选择使用频率权重以启用频率加权。
记录标识。此字段将用作唯一记录标识。大多数节点都会忽略此特征;但它受线性模型支持,并且是 IBM Netezza 数据库内挖掘节点所必需的。