Rvest网页爬虫下载

【文件属性】：

文件名称：Rvest网页爬虫

文件大小：4KB

文件格式：R

更新时间：2020-12-17 11:02:19

Rvest包多页抓取正则化表达式保存数据

library(xml2) library(rvest) library(rvest) library(stringr) amazon.rank<-function(url='https://www.amazon.com/gp/bestsellers/wireless/ref=pd_zg_hrsr_wireless_1_1',start=1,end=1){ product<-data.frame() for(i in start:end){ Sys.sleep(1) ##网页输入 url<-paste0(url,'#',"i") web<-read_html(url,encoding="UTF-8") #读取数据，规定编码 ##读入序号 num<-web %>% html_nodes("span.zg_rankNumber")%>%html_text()%>%as.numeric() num ##读入产品名称 name<-web%>%html_nodes("div.zg_itemWrapper")%>%html_nodes("div.p13n-sc-truncated-hyphen")%>%html_text()%>%as.character() to_remove <- paste(c("\n", "^\\s+|\\s+$"), collapse = "|")#去掉换行符、空格、, ",.*" 读取一种类型 position <- gsub(to_remove, "", name) position<-as.factor(position) position

立即下载

秒客网

Rvest网页爬虫

网友评论

相关文章