productCategorization:使用特定于域的语言建模改善分层产品分类

时间:2024-04-28 10:08:41
【文件属性】:

文件名称:productCategorization:使用特定于域的语言建模改善分层产品分类

文件大小:201KB

文件格式:ZIP

更新时间:2024-04-28 10:08:41

language-modelling transformer-models product-offers web-shops Python

使用特定于域的语言建模改善分层产品分类 为了提供一致的用户体验,诸如市场或价格门户之类的产品聚合器将来自许多网上商店的产品报价整合到一个产品层次结构中。 最近,变压器模型在各种NLP任务上显示了卓越的性能。 这些模型使用自我监督学习在巨大的跨域文本语料库上进行了预训练,并在之后针对特定的下游任务进行了微调。 来自其他应用程序领域的研究表明,使用特定于域的文本语料库进行的额外的自我监督式预训练可以进一步提高下游性能,而无需额外的特定于任务的训练数据。 在本文中,我们首先表明,在将来自不同网上商店的产品报价分配到单个产品层次结构中的任务上,变压器的性能优于传统的基于fastText的分类技术。 之后,我们调查是否有可能通过使用从Common Crawl中提取的不同产品集进行额外的自我监督的预训练来进一步改善变压器模型的性能。 我们的实验表明,通过使用大量相关产品报价以及来自原始Web商店的异


网友评论