快速获取网页的部分元素(不用selenium,用js)

时间:2021-09-20 21:20:21

背景

网页是表格结构,现在需要快速从网页上获取一些元素的内容。但是对方系统不提供接口,只能手工爬(读书人的事情,拿来整理整理用用)。

最开始的时候考虑使用selenium,后来发现我本地代码太老了,运行不起来。需要更新一下jar包等各种环境。同时页面上还有登录校验,写起来太麻烦了。

又因为最近在写服务端程序,调试前端页面比较多,所以突发奇想,在页面控制台里输入js获取元素。

偷完数据很爽,记录一下

页面结构

表格结构,table>tbody>tr>td>a
需要从中取得 id, 主题,作者3个字段
快速获取网页的部分元素(不用selenium,用js)

结果

$(".hascontextmenu").each(
function(){
var t1=$(this).find(".subject>a").attr("href");
var t2=$(this).find(".subject>a").text();
var t3=$(this).find(".author>a").text();
console.log(t1 +"," +t2 + "," +t3);
}
)

从控制台中拷出来就能用了

快速获取网页的部分元素(不用selenium,用js)