1.去除以下html文件中的标签,只显示文本信息。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
< div >
< p >岗位职责:</ p >
< p >完成推荐算法、数据统计、接口、后台等服务器端相关工作</ p >
< p >< br ></ p >
< p >必备要求:</ p >
< p >良好的自我驱动力和职业素养,工作积极主动、结果导向</ p >
< p > < br ></ p >
< p >技术要求:</ p >
< p >1、一年以上 Python 开发经验,掌握面向对象分析和设计,了解设计模式</ p >
< p >2、掌握HTTP协议,熟悉MVC、MVVM等概念以及相关WEB开发框架</ p >
< p >3、掌握关系数据库开发设计,掌握 SQL,熟练使用 MySQL/PostgreSQL 中的一种< br ></ p >
< p >4、掌握NoSQL、MQ,熟练使用对应技术解决方案</ p >
< p >5、熟悉 Javascript/CSS/HTML5,JQuery、React、Vue.js</ p >
< p > < br ></ p >
< p >加分项:</ p >
< p >大数据,数理统计,机器学习,sklearn,高性能,大并发。</ p >
</ div >
|
利用python正则表达式re模块中的sub方法,将标签替换为空字符串,代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
|
#-*- coding:utf-8 -*-
import re
#去除标签
s = "<div>\
<p>岗位职责:< / p>\
<p>完成推荐算法、数据统计、接口、后台等服务器端相关工作< / p>\
<p><br>< / p>\
<p>必备要求:< / p>\
<p>良好的自我驱动力和职业素养,工作积极主动、结果导向< / p>\
<p> <br>< / p>\
<p>技术要求:< / p>\
<p> 1 、一年以上 Python 开发经验,掌握面向对象分析和设计,了解设计模式< / p>\
<p> 2 、掌握HTTP协议,熟悉MVC、MVVM等概念以及相关WEB开发框架< / p>\
<p> 3 、掌握关系数据库开发设计,掌握 SQL,熟练使用 MySQL / PostgreSQL 中的一种<br>< / p>\
<p> 4 、掌握NoSQL、MQ,熟练使用对应技术解决方案< / p>\
<p> 5 、熟悉 Javascript / CSS / HTML5,JQuery、React、Vue.js< / p>\
<p> <br>< / p>\
<p>加分项:< / p>\
<p>大数据,数理统计,机器学习,sklearn,高性能,大并发。< / p>\
< / div> "
p = r "</?\w+>| "
print (re.sub(p, " " , s))
|
2.将以下网址提取出域名:
http://www.interoem.com/messageinfo.asp?id=35`
http://3995503.com/class/class09/news_show.asp?id=14
http://lib.wzmc.edu.cn/news/onews.asp?id=769
http://www.zy-ls.com/alfx.asp?newsid=377&id=6
http://www.fincm.com/newslist.asp?id=415
利用sub方法,将整个字符串替换为只含域名的字符串。代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
|
#-*- coding:utf-8 -*-
import re
#提取出域名
s2 = """http://www.interoem.com/messageinfo.asp?id=35`
http://3995503.com/class/class09/news_show.asp?id=14
http://lib.wzmc.edu.cn/news/onews.asp?id=769
http://www.zy-ls.com/alfx.asp?newsid=377&id=6
http://www.fincm.com/newslist.asp?id=415"""
p = r "(http://.+?/).+"
print (re.sub(p, lambda x : x.group( 1 ), s2))
|
3.提取出如下字符串中的单词:
1
|
hello world ha ha
|
利用split方法分割空格或者用findall方法寻找到所有的单词,代码如下:
1
2
3
4
5
6
7
|
#-*- coding:utf-8 -*-
import re
#提取出单词
s3 = "hello world ha ha"
print (re.split(r " +" , s3))
print (re.findall(r "\b\w+\b" , s3))
|
三道题运行结果如下:
第一题:
岗位职责: 完成推荐算法、数据统计、接口、后台等服务器端相关工作 必备要求: 良好的自我驱动力和职业素养,工作积极主动、结果导向 技术要求: 1、一年以上 Python 开发经验,掌握面向对象分析和设计,了解设计模式 2、掌握HTTP协议,熟悉MVC、MVVM等概念以及相关WEB开发框架 3、掌握关系数据库开发设计,掌握 SQL,熟练使用 MySQL/PostgreSQL 中的一种 4、掌握NoSQL、MQ,熟练使用对应技术解决方案 5、熟悉 Javascript/CSS/HTML5,JQuery、React、Vue.js 加分项: 大数据,数理统计,机器学习,sklearn,高性能,大并发。
第二题:
http://www.interoem.com/
http://3995503.com/
http://lib.wzmc.edu.cn/
http://www.zy-ls.com/
http://www.fincm.com/
第三题:
['hello', 'world', 'ha', 'ha']
['hello', 'world', 'ha', 'ha']
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持服务器之家。
原文链接:http://blog.csdn.net/wangbowj123/article/details/77979635