(pattern) 可以对文本(字符串)中所有可能被解释为正则运算符的字符进行转义的应用函数。
当我们用python读取文本时,文本中含有许多的转义字符,为了达到我们想要读取文本的结果,需要将这些转义字符都去除掉。
怎么去除掉呢?
特别是对大批量的文本,不可能从文本中将这些字符找出来,将里面的 可能被解释为正则运算符的字符进行转义。。。况且我也不知道里面有哪些字符会被转义,或者将那些可能被解释为正则运算符的字符全部穷举出来放进集合,但是这样比较麻烦。
这时候就需要()函数通过正则表达式可以解决这一问题。
#去除特殊符号
def remove_special_characters(text):
tokens = tokenize_text(text) #tokens为分词后的文本
pattern = ('[{}]'.format(())) #正则匹配特殊符号
print(pattern)
filtered_tokens = filter(None, [('', token) for token in tokens])
filtered_text = ' '.join(filtered_tokens)
return filtered_text
输出结果:
('[\\!\\"\\#\\$\\%\\&\\\'\\(\\)\\*\\+\\,\\-\\.\\/\\:\\;\\<\\=\\>\\?\\@\\[\\\\\\]\\^_\\`\\{\\|\\}\\~]')