python 爬取网页内容

 #encoding:UTF-8

 import urllib

 import urllib.request

 import bs4

 from bs4 import BeautifulSoup as bs

 def test1():

     url = "http://www.stylusstudio.com/edifact/D95B/CODECO.htm"

     resp = urllib.request.urlopen(url)

     data = resp.read().decode('UTF-8')

     soup = bs(data, 'html.parser')

     segment11= soup.find_all('table')

     segment1=segment11[7].find_all('tr')#表示第几个table，此时表示进去html网页中的第7个table

     f2=open('./text1.txt','a',encoding='cp852')

     for item in segment1:

             print(item)

             '''

             <tr class="FrameTreeFont"><td><span class="FrameDrawFont">│

             <span class="FrameHideFont">─</span>│<span class="FrameHideFont">─</span>├─</span>

             <a class="FrameItemFont" href="DAM_.htm" target="classFrame" title="Damage">DAM</a>

             Damage</td><td align="right"><span class="FrameDetailFont"> ×1 

             </span></td><td><span class="FrameDetailFont">(M)</span></td></tr>

             '''

             print(item.get_text())#以文本方式呈现

             '''

             │─│─├─DAM Damage ×1 (M)

             '''

             # print(item.td.span.get_text())#获取具体标签内部内容

             print([text for text in item.stripped_strings] )#以列表方式呈现

             '''

             ['│', '─', '│', '─', '├─', 'DAM', 'Damage', '×1', '(M)']

             '''

             '''

             soup.get_text("|")#u'\nI linked to |example.com|\n'进一步，通过strip去除掉文本每个位的头尾空白。

             soup.get_text("|", strip=True)#u'I linked to|example.com'

             '''

             f2.writelines(str([text for text in item.stripped_strings])+'\n')

     f2.close()

 if __name__=='__main__':

     test1()

python 爬取网页内容的更多相关文章

python爬取网页内容demo
#html文本提取 from bs4 import BeautifulSoup html_sample = '\ <html> \ <body> \ <h1 id = & ...
利用python爬取海量疾病名称百度搜索词条目数的爬虫实现
实验原因: 目前有一个医疗百科检索项目,该项目中对关键词进行检索后,返回的结果很多,可惜结果的排序很不好,影响用户体验.简单来说,搜索出来的所有符合疾病中,有可能是最不常见的疾病是排在第一个的,而最有 ...
python爬取豆瓣首页热门栏目详细流程
记录一下爬取豆瓣热门专栏的经过,通过这篇文章,你能学会requests,HTMLParser,json的基本使用,以及爬取网页内容的基本思路. 使用模块 1,获取豆瓣首页代码:首先我们需要访问豆瓣页面 ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...
python 爬取网页内的代理服务器列表（需调整优化）
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-30 20:38:23 # @Author : EnderZhou (z ...
第14&period;1节通过Python爬取网页的学习步骤
如果要从一个互联网前端开发的小白,学习爬虫开发,结合自己的经验老猿认为爬虫学习之路应该是这样的: 一. 了解HTML语言及css知识这方面的知识请大家通过w3school 去学习,老猿对于html总 ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...

随机推荐

一文彻底了解join的各种用法
表a 表b a1 a2 b1 b2 a01 张三 a02 数学 a02 ...
gcc创建和使用静态库、动态库
http://www.cnblogs.com/dyllove98/archive/2013/06/25/3155599.html 目录树结构: test/include/hello.h #ifdef ...
Gym 100818G （模拟退火）
题目大意给一张n个点的无向图,要求给每个点染色0或1,使得每个点的相邻相同颜色点的数量小于等于其度数的一半. 解题分析没想到什么好的算法,就随机乱搞了. 若某个状态时,一个点的度数为cnt,相邻相 ...
js-DOM-页面元素的兼容性、常用事件、节点
页面元素的兼容性: 所谓的兼容性指的就是当前浏览器是否支持当前对象的属性或是方法,如果支持就是兼容,如果不支持就是不兼容. 举个例子: /** * 设置页面标签之间的文本内容的兼容性写法 * @par ...
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
刘汝佳算法竞赛-入门经典第二部分算法篇第六章 1（Lists）
127 - "Accordian" Patience 题目大意:一个人一张张发牌,如果这张牌与这张牌前面的一张或者前面的第三张(后面称之为一位置和三位置)的点数或花式相同,则将这张 ...
oracle安装遇到的问题
这两天要做一个项目,教师招聘系统.要用oracle.就安装了oracle 12c,安装的过程中遇到了一些问题,最后自己解决了.我是win7系统. 第一个报错: [INS-30131]执行安装程序验证所 ...
MySQL中的联合索引学习教程
MySQL中的联合索引学习教程这篇文章主要介绍了MySQL中的联合索引学习教程,其中谈到了联合索引对排序的优化等知识点,需要的朋友可以参考下联合索引又叫复合索引.对于复合索引:Mysql从左到 ...
JProfiler简明使用教程
JProfile是一款性能瓶颈分析工具,监控粒度可以细化到某一个类包,堪称神器!我安装了一下9.11的版本,并简单说说使用方法. 1:创建一个监控任务 2:选择tomcat版本 3:监控远程服务器 4 ...
获取choice的value