文件名称:进化过程的设计-文本数据可视化表示
文件大小:685KB
文件格式:PDF
更新时间:2024-07-05 21:29:12
hadoop
4.1 进化过程的设计 进化过程主要分为四个操作,均是在RDD模 型内实现的。Spark和 HDFS高度兼容,使得可以 对存储于 HDFS中 的 文 本 数 据 进 行 逐 行 处 理,所 以我们 将 初 始 种 群 按 每 个 个 体 样 本 逐 行 存 储 于 HDFS上。 (1)交叉操作:读取全局列表样本,随机分配到 各个节点,在每个节点上创建RDD,再通过take函 数全部采样,平均存储到两个列表中。两个列表利 用parallelize函数再次生成两个RDD,通过组成 K-V键值对 的 形 式 来 实 现 两 个 父 代 的 随 机 配 对, 如图6所示。 然后利用 Map函数逐条对键值对〈individu- al,individual〉的键和值进行单点交叉操作,再分 别提取交叉后的键 和 值,通 过 Map合 并 创 建 出 交 312刘 鹏等:基于Spark的并行遗传算法求解多峰函数极值