dagw_page:丹麦Gigaword专案

时间:2024-06-14 18:09:56
【文件属性】:

文件名称:dagw_page:丹麦Gigaword专案

文件大小:2KB

文件格式:ZIP

更新时间:2024-06-14 18:09:56

当没有大型的,覆盖面广的语料库时,很难为丹麦的自然语言处理开发好的工具。 为了解决这个问题,我们正在建立一个超过十亿个单词(10 ^ 9)的gigaword语料库。 这是该项目的主页。 首要目标是创建一个具有代表性的数据集。 2.无障碍的3.适合丹麦自然语言处理的“固定点”。 发牌 为了使语料库可访问,必须公开许可语料库的所有部分,以免费分发。 许可证示例是诸如Creative Commons通用许可证(CC0)或CC-BY之类的许可证。 工作文件 有关主体的详细信息,请 。 宽度 丹麦语Gigaword应该涵盖各个方面的变化,包括: 作者时间; 言语状况; 模态 领域; 登记; 说话者的年龄; 说方言; 话语者的社会经济地位。 这与针对Newswire的早期英语Gigaword版本有意地大相径庭。 语料库的标准(1),代表性,要求超越新闻通讯社。 如果语料库要覆盖足够多的


【文件预览】:
dagw_page-master
----_config.yml(28B)
----README.md(2KB)
----CNAME(11B)

网友评论