基于 pytorch-transformers 实现的 BERT 中文文本分类代码

时间:2022-06-06 17:30:04
【文件属性】:

文件名称:基于 pytorch-transformers 实现的 BERT 中文文本分类代码

文件大小:732.57MB

文件格式:ZIP

更新时间:2022-06-06 17:30:04

pytorch bert 分类 文档资料 人工智能

基于 pytorch-transformers 实现的 BERT 中文文本分类代码 数据: 从 THUCNews 中随机抽取20万条新闻标题,一共有10个类别:财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐,每类2万条标题数据。数据集按如下划分: 训练集:18万条新闻标题,每个类别的标题数为18000 验证集:1万条新闻标题,每个类别的标题数为1000 测试集:1万条新闻标题,每个类别的标题数为1000


【文件预览】:
BERT-classification
----README.docx(182KB)
----config.py(1KB)
----pretrained_bert()
--------pytorch_model.bin(392.51MB)
--------config.json(624B)
--------vocab.txt(107KB)
----train.py(5KB)
----main.py(4KB)
----__pycache__()
--------config.cpython-38.pyc(1KB)
--------preprocess.cpython-38.pyc(3KB)
--------train.cpython-38.pyc(4KB)
----transformer.py(28KB)
----.idea()
--------.gitignore(50B)
--------workspace.xml(4KB)
--------misc.xml(206B)
--------modules.xml(281B)
--------.name(7B)
--------transformer.iml(503B)
--------inspectionProfiles()
----preprocess.py(5KB)
----results()
--------train_results.txt(2KB)
--------dev_results.png(28KB)
--------test_results.png(13KB)
----data()
--------input.txt(194B)
--------test.txt(548KB)
--------dev.txt(548KB)
--------label.txt(91B)
--------model()
--------train.txt(9.66MB)

网友评论