文件名称:*检查:快速,强大的Python库,用于检查字符串中的冒犯性语言
文件大小:27.22MB
文件格式:ZIP
更新时间:2024-02-23 21:54:44
scikit-learn sklearn python3 bag-of-words profanity
*检查 一个快速,强大的Python库,用于检查字符串中的*或攻击性语言。 在 了解有关如何以及为什么建立profanity-check更多 。 您也可以测试profanity-check 。 这个怎么运作 profanity-check使用线性SVM模型,该模型在200k个人标记的纯净*文本字符串样本上训练。 它的模型很简单,但是却出奇的有效,这意味着profanity-check既健壮又性能极佳。 为什么要使用*性检查? 没有明确的黑名单 许多*检测库使用硬编码的坏词列表来检测和过滤*行为。 例如,使用,甚至仍使用。 这种方法显然存在明显的问题,尽管它们可能是高性能的,但这些库根本不准确。 一个简单的profanity-check更好的例子是短语“ You cocksucker” - profanity认为这很干净,因为它的单词列表中没有“ cocksucker” 。 性能 其他库(例如使用更复杂的方法,这些方法更精确,但会降低性能。 使用基准测试(在2018年12月在新的Macbook Pro上执行)大致得出以下结果: 包 1预测(毫秒) 10个预测(毫秒)
【文件预览】:
profanity-check-master
----.gitignore(1KB)
----README.md(5KB)
----tests()
--------test_profanity_check.py(749B)
--------__init__.py(0B)
----LICENSE(1KB)
----profanity_check()
--------profanity_check.py(498B)
--------__init__.py(71B)
--------data()
----requirements.txt(36B)
----setup.py(862B)
----.travis.yml(147B)