文件名称:cscg:代码生成是代码汇总的双重任务
文件大小:22KB
文件格式:ZIP
更新时间:2024-06-12 04:03:14
code-generation language-model JupyterNotebook
代码生成是代码汇总的双重任务 提出的CS / CG模型的临时实施 入门 必须将每个数据集定义为torch.utils.data.Dataset的子类,并具有用于 预处理和vocab构建器(文本-> vocab查找索引) __getitem__必须返回一个培训示例 __len__ 生成训练/测试/有效分割 计算语言模型概率(即P(x) ,其中x :anno /代码张量) 计算LM概率 获取数据集的训练/测试/有效拆分。 为LM构造配置。 对于每种类型(anno /代码),训练LM并将模型转储为lm-{dataset_name}-{kind}.pt (例如lm-django-anno.pt )。 最后,使用这些模型,为每个x (anno / code张量)计算P(x) )。 参考 @article{wei2019code, title={Code Generation as
【文件预览】:
cscg-master
----.gitignore(1KB)
----requirements.txt(75B)
----lang.py(5KB)
----LICENSE(1KB)
----README.md(1KB)
----loaders.py(264B)
----language_model()
--------lm_train.py(7KB)
--------models.py(6KB)
--------lm_prob.py(1KB)
--------README.md(156B)
----dataset.py(5KB)
----notes.ipynb(3KB)
----cscg.ipynb(39KB)