文件名称:本地数据预处理-二相编码信号性能分析
文件大小:3.19MB
文件格式:PDF
更新时间:2024-07-05 06:18:20
2017年学习
3.1 本地数据预处理 本实验采用的数据集是小数据集 small_user.csv(只包含 30 万条记录)。 小数据集 small_user.csv是从大规模数据集 raw_user.csv中抽取的一小部分数 据,数据均由厦门大学大数据实验室提供。关于实验数据的下载、复制、移 动操作在此不做详细解释,只对使用的数据集展示截图如下: 图 22 数据集展示 因为就算是小数据集其也包含了 300000 条数据信息,所以最好是不要使 用 gedit 工具对其打开,可能回造成机器卡死现象。此处可以使用终端命令 来展示该数据集的前几条数据,来验证我们的数据集是否合法: head -8 raw_user.csv #展示小数据集中的前 8 条数据信息 图 23 小数据集中前 8 条数据信息 可以看到我们的数据集中,数据头有一行说明性质的数据,它们分别的 含义为 user_id(用户 id)、item_id(商品 id)、behaviour_type(包括浏览、收 藏、加购物车、购买,对应取值分别是 1、2、3、4)、user_geohash(用户地 理位置哈希值,有些记录中没有这个字段值,所以后面我们会用脚本做数据 预处理时把这个字段全部删除)、item_category(商品分类)、time(该记录 产生时间)。 接下来我们需要对数据进行预处理,第一步就是删除数据头第一行的记 录,也就是每个字段的名称,操作命令为: sed -i '1d' small_user.csv #删除数据头第一行的记录