审查清理文本字符串-华为云大数据中台架构分享下载

【文件属性】：

文件名称：审查清理文本字符串-华为云大数据中台架构分享

文件大小：5.68MB

文件格式：PDF

更新时间：2024-07-01 05:00:18

Python cookbook 中文参考

2.12 审查清理文本字符串问题一些无聊的幼稚黑客在你的网站页面表单中输入文本”pýtĥöñ”，然后你想将这些字符清理掉。解决方案文本清理问题会涉及到包括文本解析与数据处理等一系列问题。在非常简单的情形下，你可能会选择使用字符串函数(比如 str.upper() 和 str.lower() )将文本转为标准格式。使用 str.replace() 或者 re.sub() 的简单替换操作能删除或者改变指定的字符序列。你同样还可以使用 2.9 小节的 unicodedata.normalize() 函数将 unicode 文本标准化。然后，有时候你可能还想在清理操作上更进一步。比如，你可能想消除整个区间上的字符或者去除变音符。为了这样做，你可以使用经常会被忽视的 str.translate() 方法。为了演示，假设你现在有下面这个凌乱的字符串： >>> s = 'pýtĥöñ\fis\tawesome\r\n' >>> s 'pýtĥöñ\x0cis\tawesome\r\n' >>> 第一步是清理空白字符。为了这样做，先创建一个小的转换表格然后使用 translate() 方法： >>> remap = { ... ord('\t') : ' ', ... ord('\f') : ' ', ... ord('\r') : None # Deleted ... } >>> a = s.translate(remap) >>> a

立即下载

秒客网

审查清理文本字符串-华为云大数据中台架构分享

网友评论

相关文章