实验需要新浪微博关于某一主题(如“云计算”、“大数据”等)的内容数据,原本打算是直接使用新浪微博的API去抓取,被审核不过和授权机制完全击倒。所以索性直接用HttpClient模拟抓取得了。
但是碰上几个问题,这里先提一下,有时间再总结吧。
1. 微博不登陆不会完全显示结果,因此必须通过模拟登陆来解决这个问题,还好有这篇文章,不然不知道还要探索多久。
2. 用机器直接爬取数据会碰到网站防抓取问题,必须用一些机制规避。
3. 每次搜索只能返回50个/页*50页=2500条结果,对于实验来说规模太小,必须想方法扩大查全率,抓到更多主题相关的微博。
原文转自:http://www.cnblogs.com/xwsk/archive/2011/11/14/2248857.html
最近做一个东西,需要抓取新浪微博的微话题,新浪微博api有所限制所以就没用新浪微博api了,想直接的从网页上获取内容,但微博的很多网页都需要登录后才能浏览的,所以做了个新浪微博的登录功能,基本需要的功能实现了,但并不健全。
对于新浪微博的页面是要用户登录之后才能进入的,如http://weibo.com/pub/topic,那么爬虫也必须登录上新浪微博才能爬取内容,在这里实现下新浪微博的登录功能,到现在还有一些问题没解决,但可以实现必须登录后才能进入的页面的文本捕获了。
先分析下微博登录提交的内容,新浪微博主页登录向服务器提交的是使用POST的,post附带的参数有
entry:weibo gateway:1 from: savestate:7 useticket:1 ssosimplelogin:1 vsnf:1 vsnval: su:NDY0Mjg5NTg4JTQwcXEuY29t service:miniblog servertime:1321269451 nonce:HGE0XB pwencode:wsse sp:a3135915db1b5d15a47a43e550d89e1499a26a9b encoding:UTF-8 url:http: //weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack returntype:META |
在这些参数中su是用户的用户名使用base64编码的;servertime是该动作的开始时间,nonce是随机产生的6为随机数,pwencode:wsse应该指的是密码格式的编码了,sp是密码的通过编码后的形式。对于我现在的应用只需要这几个参数就好了。
接着分析下这些参数吧:
request.su=sinaSSOEncoder.base64.encode(urlencode(username)); |
用户名通过了urlencode和base64编码后才提交的;
servertime在哪里忘记了,通过获取时间/1000就可以得到servertime了;
var makeNonce= function (len){ var x= "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789" ; var str= "" ; for ( var i=0;i<len;i++){str+=x.charAt(Math.ceil(Math.random()*1000000)%x.length)} return str}; |
nonce参数是上面函数得到的;
sp的得到就相对比较麻烦一些,是通过password,servertime,nonce 共同编码后得到的数据;使用的编码函数是
var sinaSSOEncoder=sinaSSOEncoder||{};( function (){ var i=0; var g=8; this .hex_sha1= function (j){ return h(b(f(j),j.length*g))}; var b= function (A,r){A[r>>5]|=128<<(24-r%32);A[((r+64>>9)<<4)+15]=r; var B=Array(80); var z=1732584193; var y=-271733879; var v=-1732584194; var u=271733878; var s=-1009589776; for ( var o=0;o<A.length;o+=16){ var q=z; var p=y; var n=v; var m=u; var k=s; for ( var l=0;l<80;l++){ if (l<16){B[l]=A[o+l]} else {B[l]=d(B[l-3]^B[l-8]^B[l-14]^B[l-16],1)} var C=e(e(d(z,5),a(l,y,v,u)),e(e(s,B[l]),c(l)));s=u;u=v;v=d(y,30);y=z;z=C}z=e(z,q);y=e(y,p);v=e(v,n);u=e(u,m);s=e(s,k)} return Array(z,y,v,u,s)}; var a= function (k,j,m,l){ if (k<20){ return (j&m)|((~j)&l)} if (k<40){ return j^m^l} if (k<60){ return (j&m)|(j&l)|(m&l)} return j^m^l}; var c= function (j){ return (j<20)?1518500249:(j<40)?1859775393:(j<60)?-1894007588:-899497514}; var e= function (j,m){ var l=(j&65535)+(m&65535); var k=(j>>16)+(m>>16)+(l>>16); return (k<<16)|(l&65535)}; var d= function (j,k){ return (j<<k)|(j>>>(32-k))}; var f= function (m){ var l=Array(); var j=(1<<g)-1; for ( var k=0;k<m.length*g;k+=g){l[k>>5]|=(m.charCodeAt(k/g)&j)<<(24-k%32)} return l}; var h= function (l){ var k=i? "0123456789ABCDEF" : "0123456789abcdef" ; var m= "" ; for ( var j=0;j<l.length*4;j++){m+=k.charAt((l[j>>2]>>((3-j%4)*8+4))&15)+k.charAt((l[j>>2]>>((3-j%4)*8))&15)} return m}; this .base64={encode: function (l){l= "" +l; if (l== "" ){ return "" } var j= "" ; var s,q,o= "" ; var r,p,n,m= "" ; var k=0; do {s=l.charCodeAt(k++);q=l.charCodeAt(k++);o=l.charCodeAt(k++);r=s>>2;p=((s&3)<<4)|(q>>4);n=((q&15)<<2)|(o>>6);m=o&63; if (isNaN(q)){n=m=64} else { if (isNaN(o)){m=64}}j=j+ this ._keys.charAt(r)+ this ._keys.charAt(p)+ this ._keys.charAt(n)+ this ._keys.charAt(m);s=q=o= "" ;r=p=n=m= "" } while (k<l.length); return j},_keys: "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/=" }}).call(sinaSSOEncoder); |
得到得到sp的函数为
password=sinaSSOEncoder.hex_sha1( "" +sinaSSOEncoder.hex_sha1(sinaSSOEncoder.hex_sha1(password))+me.servertime+me.nonce)}request.sp=password; return request}; |
必要的参数已经分析到了,只要封装http包先服务器发送即可。我使用的是java实现,把上面一些javascript函数改写成java函数
//用户名编码 private return Base64.encodeBase64String(URLEncoder.encode(account).getBytes()); } //六位随机数nonce的产生 private String x= "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789" ; String str = "" ; for (int i=0;i<len;i++){ str+=x.charAt((int) (Math.ceil(Math.random()*1000000)%x.length())); } return str; } //servertime的产生 private long servertime = new Date().getTime()/1000; return String.valueOf( servertime); } //密码的编码 this .sp = new SinaSSOEncoder().encode( this .pwd, this .servertime, this .nonce); |
SinaSSOEncoder编码类的实现
package //新浪微博密码加密的算法 public private boolean i= false ; private int g=8; public SinaSSOEncoder(){ } public String encode(String psw,String servertime,String nonce){ String password; password=hex_sha1( "" +hex_sha1(hex_sha1(psw))+servertime+nonce); return password; } private String hex_sha1(String j) { return h(b(f(j,j.length()*g), j.length() * g)); } private String h(int[] l){ String k = i ? "0123456789ABCDEF" : "0123456789abcdef" ; String m = "" ; for (int j = 0; j < l.length * 4; j++) { m += k.charAt((l[j >> 2] >> ((3 - j % 4) * 8 + 4)) & 15) + "" + k.charAt((l[j >> 2] >> ((3 - j % 4) * 8)) & 15); } return m; } private int[] b(int[] A,int r){ A[r>>5]|=128<<(24-r%32); A[((r+64>>9)<<4)+15]=r; int[] B = new int[80]; int z = 1732584193; int y = -271733879; int v = -1732584194; int u = 271733878; int s = -1009589776; for (int o = 0; o < A.length; o += 16) { int q = z; int p = y; int n = v; int m = u; int k = s; for (int l = 0; l < 80; l++) { if (l < 16) { B[l] = A[o + l]; } else { B[l] = d(B[l - 3] ^ B[l - 8] ^ B[l - 14] ^ B[l - 16], 1); } int C = e(e(d(z, 5), a(l, y, v, u)), e(e(s, B[l]), c(l))); s = u; u = v; v = d(y, 30); y = z; z = C; } z = e(z, q); y = e(y, p); v = e(v, n); u = e(u, m); s = e(s, k); } return new int[]{z,y,v,u,s}; } private int a(int k,int j,int m,int l){ if (k<20){ return (j&m)|((~j)&l);}; if (k<40){ return j^m^l;}; if (k<60){ return (j&m)|(j&l)|(m&l);}; return j^m^l; } private int c(int j){ return (j<20)?1518500249:(j<40)?1859775393:(j<60)?-1894007588:-899497514; } private int e(int j, int m) { int l = (j & 65535) + (m & 65535); int k = (j >> 16) + (m >> 16) + (l >> 16); return (k << 16) | (l & 65535); } private int d(int j,int k){ return (j<<k)|(j>>>(32-k)); } private int[] f(String m,int r){ int[] l; int j = (1<< this .g)-1; int len=((r+64>>9)<<4)+15; int k; for (k=0;k<m.length()*g;k+=g){ len = k>>5>len?k>>5:len; } l = new int[len+1]; for (k=0;k<l.length;k++){ l[k]=0; } for (k=0;k<m.length()*g;k+=g){ l[k>>5]|=(m.charAt(k/g)&j)<<(24-k%32); } return l; } } |
得到这几个参数后连通其他的一些参数,其他的参数内容不需要改变,一起封装成HTTP包先服务器发送即可,到这一步,已经完成得差不多了,提交到服务器后服务器返回了一些Cookie,有六个tgc,SUE,SUP,ALC,ALF,SUR。登录新浪微博提交的Cookie有很多,但在访问需要用户登录的页面只需要这里面的2个参数即可, SUE,SUP;还有一个wvr的参数,其值为4,其他的参数还没去理解,为了方便我把所有服务器返回的Cookie全都封装在HTTP包里了。
要访问其他的之前需要登录的页面时,这需要在提交的http包的Header加上Cookie项,值为获得的这几个参数加上wvr=4就好了。这就会发现原来不能直接访问的页面,现在可以访问了。
分析数据是个挺花时间的过程,但最终能实现还是很爽的。。。
一些其他的参数还没去理解他们的意义,爬取微话题的主页是没问题的,但使用一些新浪微博api时就出现了一些问题。