文件名称:sato:佐藤https的代码和数据
文件大小:46.84MB
文件格式:ZIP
更新时间:2024-05-22 17:49:40
Python
佐藤:表中的上下文语义类型检测 该存储库包括用于训练Sato模型的源代码,脚本和数据。 回购还包括一个预训练的模型,以帮助在复制结果。 Sato是一种混合式机器学习模型,可利用来自上下文的信息以及列值自动检测表中列的语义类型。 Sato将在大型表语料库上训练的深度学习模型与主题建模和结构化预测相结合。 上图:佐藤建筑。 佐藤的hyrid体系结构由两个基本模块组成; 主题识别单列预测模块和结构化输出预测模块。 主题感知模块扩展了的单列预测模型(深度神经网络),并带有其他主题子网,并将表意图整合到了模型中。 然后,结构化输出预测模块将所有m列的主题感知结果组合在一起,从而为表中的列提供最终的语义类型预测。 佐藤有什么用? 大量的数据准备和信息检索任务,包括数据清理,集成,发现和搜索,都依赖于准确检测数据列类型的能力。 用于数据集成的模式匹配利用数据类型来查找跨表的数据列之间的对应关系。