文件名称:entity-linking:用于命名实体链接的双编码器模型
文件大小:68KB
文件格式:ZIP
更新时间:2024-04-17 20:40:08
nlp machine-learning deep-learning nlu entity-linking
双编码器实体链接 此仓库实现了用于实体链接的双编码器模型。 双编码器将提及和实体对分别嵌入到共享向量空间中。 双编码器模型中的编码器是预训练的变压器。 我们根据检索率指标评估三种不同的基本编码器模型。 检索率是在测试集中为每个提及生成k候选者时包括要提及的正确实体的比率。 三种基本编码器模型的HuggingFace名称为: bert-base-uncased roberta-base johngiorgi/declutr-base 此仓库中的ML模型是使用PyTorch和PyTorch-Lightning实现的。 设置 安装 从解压缩的目录中运行conda env create -f environment.yml 。 这将创建一个名为enli的Conda环境。 跑步source activate enli 安装要求。 pip install -r requirements.t
【文件预览】:
entity-linking-main
----submit-training-job.sh(973B)
----.gitignore(155B)
----README.md(3KB)
----test()
--------test_zeshel_dataset.py(3KB)
--------__init__.py(0B)
--------test_bi_encoder.py(1KB)
--------data()
----environment.yml(125B)
----static()
--------val_loss_curves.svg(85KB)
--------retrieval_rates_bar_chart.svg(37KB)
----.dockerignore(171B)
----src()
--------eval_zeshel_gcp.py(4KB)
--------tokenization.py(672B)
--------train_zeshel.py(2KB)
--------config.py(512B)
--------compute_embeddings.py(4KB)
--------train_zeshel_gcp.py(3KB)
--------declutr_test.py(931B)
--------enums.py(147B)
--------constants.py(90B)
--------zeshel_entities_dataset.py(2KB)
--------eval_zeshel.py(2KB)
--------__init__.py(0B)
--------transform_zeshel.py(4KB)
--------inspect_checkpoint.py(183B)
--------train_zeshel_local.py(2KB)
--------zeshel_dataset.py(5KB)
--------generate_plots.py(1KB)
--------bi_encoder.py(5KB)
----dockerfiles()
--------training.Dockerfile(77B)
--------eval.Dockerfile(76B)
--------base.Dockerfile(772B)
----scripts()
--------train-gcp-local-sim.sh(509B)
--------train-local.sh(277B)
--------build-images.sh(1KB)
--------transform-zeshel.sh(170B)
--------train-gcp.sh(837B)
--------compute-embeddings-local.sh(327B)
--------deploy.sh(2KB)
--------eval-gcp.sh(834B)
----requirements.txt(151B)
----notebooks()
--------explore_data.ipynb(733B)