审查清理文本字符串-python cookbook(第3版)高清中文完整版

时间:2024-06-29 23:05:54
【文件属性】:

文件名称:审查清理文本字符串-python cookbook(第3版)高清中文完整版

文件大小:4.84MB

文件格式:PDF

更新时间:2024-06-29 23:05:54

python cookbook 第3版 高清 中文完整版

2.12 审查清理文本字符串 问题 一些无聊的幼稚黑客在你的网站页面表单中输入文本”pýtĥöñ”,然后你想将这些字符清理 掉。 解决方案 文本清理问题会涉及到包括文本解析与数据处理等一系列问题。 在非常简单的情形下, 你可能会选择使用字符串函数(比如 str.upper() 和 str.lower() )将文本转为标准格式。 使用 str.replace() 或者 re.sub() 的简单替换操作能删除或者改变指定的字符序列。 你 同样还可以使用2.9小节的 unicodedata.normalize() 函数将unicode文本标准化。 然后,有时候你可能还想在清理操作上更进一步。比如,你可能想消除整个区间上的字符 或者去除变音符。 为了这样做,你可以使用经常会被忽视的 str.translate() 方法。 为了 演示,假设你现在有下面这个凌乱的字符串: >>> s = 'pýtĥöñ\fis\tawesome\r\n' >>> s 'pýtĥöñ\x0cis\tawesome\r\n' >>> 第一步是清理空白字符。为了这样做,先创建一个小的转换表格然后使用 translate() 方 法:


网友评论