用R去做文本处理

时间:2023-01-27 00:26:27
  • 数据说明

这是一份爬好的数据,data.frame格式。包括一些招聘信息,具体的列名和含义如下所示:

用R去做文本处理用R去做文本处理
  • 职位名称(occ_name)清洗

  • 预览

用R去做文本处理

  • 清洗策略

  1. 需要去除无关的信息,比如符号以及数字信息
  • 实现

z <- read.csv('zhaopin.csv')
z$occ_name <- gsub('[^\u4E00-\u9FA5]','',z$occ_name)
  • 工资(salary)清洗

  • 预览

用R去做文本处理

  • 清洗策略

  1. 去除除了数字以外的其他符号
  2. 能够输出工资的区间的,可能需要分列
  • 实现

z$salary <- gsub('[^0-9-]','',z$salary)
library(tidyr)
z <- separate(data = z,col = salary,into = c('salary_L','salary_H'),sep = '-')
z$salary_L <- as.numeric(z$salary_L)
z$salary_H <- as.numeric(z$salary_H)
  • 招募人数

  • 预览

用R去做文本处理

  • 清洗策略

  1. 保留数字
  • 实现

z$recruiting_num <- as.numeric(gsub('[^0-9]','',z$recruiting_num))
  • 岗位信息(occ_position)清洗

  • 预览

用R去做文本处理

  • 清洗策略

  1. 斜杠线去除
  2. 保留中文
  • 实现

z$occ_position <- gsub('[^\u4E00-\u9FA5]','',z$occ_position)
  • 岗位需求(occ_descip)清洗

  • 预览

用R去做文本处理

  • 清洗策略

  1. 去除空格
  2. 去除制表符,换行符等
  • 实现

z$occ_descrip <- gsub('[[:cntrl:] [:space:]]','',z$occ_descrip)
  • 公司地址(company_address)清洗

  • 预览

用R去做文本处理

  • 清洗策略

  1. 去除空格
  2. 去除换行符
  • 实现

z$company_address <- gsub('[[:cntrl:] [:space:]]','',z$company_address)
  • 清洗结果展示

用R去做文本处理

用R去做文本处理的更多相关文章

  1. 用R进行文本分析初探——以《红楼梦》为例

    一.写在前面的话~ 刚吃饭的时候同学问我,你为什么要用R做文本分析,你不是应该用R建模么,在我和她解释了一会儿后,她嘱咐我好好写这篇博文,嗯为了娟儿同学,细细说一会儿文本分析. 文本数据挖掘(Text ...

  2. R语言︱文本(字符串)处理与正则表达式

    处理文本是每一种计算机语言都应该具备的功能,但不是每一种语言都侧重于处理文本.R语言是统计的语言,处理文本不是它的强项,perl语言这方面的功能比R不知要强多少倍.幸运的是R语言的可扩展能力很强,DN ...

  3. R语言︱词典型情感分析文本操作技巧汇总(打标签、词典与数据匹配等)

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:情感分析中对文本处理的数据的小技巧要 ...

  4. R语言:文本(字符串)处理与正则表达式

    R语言:文本(字符串)处理与正则表达式 (2014-03-27 16:40:44) 转载▼ 标签: 教育 分类: R 处理文本是每一种计算机语言都应该具备的功能,但不是每一种语言都侧重于处理文本.R语 ...

  5. 一篇文章教你如何用R进行数据挖掘

    一篇文章教你如何用R进行数据挖掘 引言 R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来.得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器 ...

  6. R&plus;NLP︱text2vec包——四类文本挖掘相似性指标 RWMD、cosine、Jaccard 、Euclidean (三&comma;相似距离)

    要学的东西太多,无笔记不能学~~ 欢迎关注公众号,一起分享学习笔记,记录每一颗"贝壳"~ --------------------------- 在之前的开篇提到了text2vec ...

  7. R&plus;NLP︱text2vec包——BOW词袋模型做监督式情感标注案例(二&comma;情感标注)

    要学的东西太多,无笔记不能学~~ 欢迎关注公众号,一起分享学习笔记,记录每一颗"贝壳"~ --------------------------- 在之前的开篇提到了text2vec ...

  8. R语言︱情感分析—词典型代码实践(最基础)(一)

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:词典型情感分析对词典要求极高,词典中 ...

  9. R语言︱情感分析—基于监督算法R语言实现(二)

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:本文大多内容来自未出版的<数据 ...

随机推荐

  1. spring quartz 配置实现定时任务 详解

    一. 编写定时任务JAVA类 比如: public class QuartzJob {     public QuartzJob(){         System.out.println(&quot ...

  2. 【求助】WPF 在XP下 有的Textbox光标会消失

    最近做个项目,一直有一个问题没有解决,就是在XP下,有的Textbox里在文本框里没有东西的时候,会没有光标.不同的XP机器,失去光标的Textbox也不一样. 各位大师看下面的三张图,当Textbo ...

  3. HDU 1509 Windows Message Queue&lpar;队列&rpar;

    题目链接 Problem Description Message queue is the basic fundamental of windows system. For each process, ...

  4. NLTK1及NLP理论基础

    以下为Aron老师课程笔记 一.NLTK安装 1. 安装nltk https://pypi.python.org/pypi/nltk 把nltk-3.0.0解压到D:\Anacond3目录 打开cmd ...

  5. Android中高级工程师面试题

    https://www.cnblogs.com/huangjialin/p/8657565.html(存在不少答案错误,可参照知识点复习,答案不可全信)  上 https://www.cnblogs. ...

  6. Win10系列:VC&plus;&plus; Direct3D开发基础1

    在介绍如何使用Direct3D项目模版来绘制立体图形之前,首先为读者介绍在Direct3D应用程序开发过程中涉及到的一些常用概念. (1)资源 资源是指可以被Direct3D图形管线所访问的内存空间, ...

  7. package&period;json浅谈

    相信很多小伙伴都见过各种各样的Node.js项目,而里面都有一个名为package.json的文件,而这个文件究竟是干什么的呢? 简单的来说,这个文件就是对整个项目的各种情况的配置(也是介绍),下面给 ...

  8. eureka-3-常用注解

    @EnableDiscoveryClient @EnableEurekaClient 上面两个注解都是用在应用的启动类上面,声明这是一个Eureka Client ,现在说明两个注解的区别. spri ...

  9. Android学习之Activity跳转与传值

    Activity跳转与传值,主要是通过Intent类,Intent的作用是激活组件和附带数据. 一.Activity跳转 方法一 Intent intent = new Intent(A.this, ...

  10. ubuntu4&period;04服务器添加虚拟主机

    buntu 14.04配置虚拟主机   虚拟主机常用于在一个单独的IP地址上提供多个域名的网站服务.如果有人想在单个VPS的单个IP地址运行多个网站,这是非常有用的.在这个教程中,让我告诉你如何设置在 ...