beautifulsoup 获取特定html源码(无需登录页面) import re
from bs4 import BeautifulSoup
import urllib2 url = 'http://www.cnblogs.com/vickey-wu/'
# connect to a URL
web = urllib2.urlopen(url)
# read html code
html = web.read()
# print html
soup = BeautifulSoup(html,'html.parser')
prety = soup.prettify()
# print prety
pointed_div = soup.findAll(name="div", attrs={"class":re.compile("forFlow")}) # 筛选标签为div且属性class为forFlow的源码
print pointed_div
相关文章
- 使用.format将文本插入到某些HTML代码中,获取错误(Python)
- Jquery获取包含具有特定html值的子元素的元素
- Requests+Etree+BeautifulSoup+Pandas+Path+Pyinstaller应用 | 获取页面指定区域数据存入html、excel文档
- python 函数 闭包 (节省内存空间 html 获取网页的源码)
- Python Pandas 获取列匹配特定值的行的索引问题
- Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能示例
- Python使用Beautiful Soup对特定内容进行HTML处理
- Python:BeautifulSoup - 根据name属性获取属性值
- python爬虫beautifulsoup解析html方法
- HTML5页面被运营商进行DNS劫持问题及解决方案,app中h5页面源码的获取