Rvest网页爬虫

时间:2020-12-17 11:02:19
【文件属性】:

文件名称:Rvest网页爬虫

文件大小:4KB

文件格式:R

更新时间:2020-12-17 11:02:19

Rvest包 多页抓取 正则化表达式 保存数据

library(xml2) library(rvest) library(rvest) library(stringr) amazon.rank<-function(url='https://www.amazon.com/gp/bestsellers/wireless/ref=pd_zg_hrsr_wireless_1_1',start=1,end=1){ product<-data.frame() for(i in start:end){ Sys.sleep(1) ##网页输入 url<-paste0(url,'#',"i") web<-read_html(url,encoding="UTF-8") #读取数据,规定编码 ##读入序号 num<-web %>% html_nodes("span.zg_rankNumber")%>%html_text()%>%as.numeric() num ##读入产品名称 name<-web%>%html_nodes("div.zg_itemWrapper")%>%html_nodes("div.p13n-sc-truncated-hyphen")%>%html_text()%>%as.character() to_remove <- paste(c("\n", "^\\s+|\\s+$"), collapse = "|")#去掉换行符、空格、, ",.*" 读取一种类型 position <- gsub(to_remove, "", name) position<-as.factor(position) position


网友评论