ProQA:渐进式预训练密集语料库索引,用于开放域质量检查和信息检索

时间:2024-03-29 05:02:36
【文件属性】:

文件名称:ProQA:渐进式预训练密集语料库索引,用于开放域质量检查和信息检索

文件大小:59KB

文件格式:ZIP

更新时间:2024-03-29 05:02:36

natural-language-processing information-retrieval pytorch question-answering Python

质量保证 为开放域QA和IR预训练密集语料库索引的资源有效方法。 给定问题,您可以使用此代码从Wikipedia检索相关段落并提取答案。 1.设置环境 conda create -n proqa -y python=3.6.9 && conda activate proqa pip install -r requirements.txt 如果要使用混合精度训练,如果您的GPU支持fp16,则需要遵循来安装Apex。 2.下载数据(包括语料库,与生成的问题配对的段落等) gdown https://drive.google.com/uc?id=17IMQ5zzfkCNsTZNJqZI5KveoIsaG2ZDt && unzip data.zip cd data && gdown https://drive.google.com/uc?id=1T1SntmAZxJ6QfNBN39KbAHcM


【文件预览】:
ProQA-master
----qa()
--------train_retrieve_qa.py(17KB)
--------tokenizer.py(5KB)
--------msmarco_process.py(1KB)
--------train.py(13KB)
--------config.py(8KB)
--------prepro_dense.py(8KB)
--------bert_retrieve_qa.py(8KB)
--------prepro_utils.py(12KB)
--------utils.py(3KB)
--------datasets.py(11KB)
--------basic_tokenizer.py(9KB)
--------eval_utils.py(3KB)
--------official_eval.py(4KB)
--------train_dense_qa.sh(781B)
--------online_sampler.py(19KB)
----requirements.txt(213B)
----README.md(4KB)
----retrieval()
--------tokenizer.py(5KB)
--------config.py(5KB)
--------retriever.py(1KB)
--------eval_retrieval.py(4KB)
--------group_paras.py(2KB)
--------utils.py(3KB)
--------train_retriever_single.sh(519B)
--------datasets.py(9KB)
--------basic_tokenizer.py(9KB)
--------trec_process.py(4KB)
--------get_para_embed.sh(464B)
--------train_retriever_cluster.sh(656B)
--------get_embed.py(6KB)
--------gen_index_id_map.py(266B)
--------train_retriever.py(13KB)
----.gitignore(64B)

网友评论