文件名称:qa-safe-strings:将UTF-8转换为Watson安全的ASCII
文件大小:9KB
文件格式:ZIP
更新时间:2024-06-14 15:33:27
Java
问答安全字符串 将Unicode转换为Watson安全的ASCII Watson Q&A实例不支持Unicode。 用于解析文本的各种内部过程和方法都需要纯ASCII文本。 为了更正此问题,IBM Ingestion团队对文档进行了多种文本转换,以使其具有Watson安全性。 不幸的是,这些转换可能不会公开或不会提供给合作伙伴。 该项目的目标是在摄取之前对文档进行转换,以便在摄取期间不对文档进行修改。 ##已知的摄取转换这些是在摄取期间对文档进行的已知转换。 此列表可能不完整。 取消对Html4转义序列的编码。 这将替换诸如®序列® 和- 以及它们代表的Unicode字符。 处理非ASCII字符非ASCII字符可以替换或删除。 各个字符的处理方式不规则地变化,并且替换不一致。 删除连字符周围的空格如果连字符周围有空格,则将这些空格删除。 我们知道a -
【文件预览】:
qa-safe-strings-master
----src()
--------com()
----CONTRIBUTING.md(6KB)
----LICENSE.md(1KB)
----README.md(2KB)
----pom.xml(984B)
----.gitignore(271B)
----CHANGELOG.md(276B)