审查清理文本字符串-华为云大数据中台架构分享

时间:2024-07-01 05:00:18
【文件属性】:

文件名称:审查清理文本字符串-华为云大数据中台架构分享

文件大小:5.68MB

文件格式:PDF

更新时间:2024-07-01 05:00:18

Python cookbook 中文 参考

2.12 审查清理文本字符串 问题 一些无聊的幼稚黑客在你的网站页面表单中输入文本”pýtĥöñ”,然后你想将这 些字符清理掉。 解决方案 文本清理问题会涉及到包括文本解析与数据处理等一系列问题。 在非常简单的 情形下,你可能会选择使用字符串函数(比如 str.upper() 和 str.lower() )将文本 转为标准格式。 使用 str.replace() 或者 re.sub() 的简单替换操作能删除或者改 变指定的字符序列。 你同样还可以使用 2.9 小节的 unicodedata.normalize() 函数 将 unicode 文本标准化。 然后,有时候你可能还想在清理操作上更进一步。比如,你可能想消除整个区 间上的字符或者去除变音符。 为了这样做,你可以使用经常会被忽视的 str.translate() 方法。 为了演示,假设你现在有下面这个凌乱的字符串: >>> s = 'pýtĥöñ\fis\tawesome\r\n' >>> s 'pýtĥöñ\x0cis\tawesome\r\n' >>> 第一步是清理空白字符。为了这样做,先创建一个小的转换表格然后使用 translate() 方法: >>> remap = { ... ord('\t') : ' ', ... ord('\f') : ' ', ... ord('\r') : None # Deleted ... } >>> a = s.translate(remap) >>> a


网友评论