文件名称:BERT_MRC_CLS
文件大小:99KB
文件格式:ZIP
更新时间:2024-05-08 16:05:37
Python
任务目标 一篇新闻属于哪个类别(时政、科技、娱乐.....) 核心技术 TextRank召回长文本中top-3个关键句;对LSTM使用残差网络;为BERT设置损失函数bert_loss 特征工程 长文本处理: 使用TextRank召回top-3个关键句以代表整篇新闻。 TextRank算法是PageRank的改进,将每个句子视为一个顶点,句子之间的连接视为边,建立一张图,通过计算边的值得到权重进而召回top-k个关键句。 该任务中,新闻的内容呈现规律是开头和结尾是点睛之笔,因此我们截取开头和结尾召回核心内容:前128个字 和 后 382个字。 2种召回方法在该任务中结果相差不大,但是使用TextRank召回top-k个关键句则更具泛化性。 Pooling:BERT 12层隐藏层的向量进行加权 Ganesh Jawahar等人[3]证明BERT每一层对文本的理解都不同,因此将BERT的十二层
【文件预览】:
BERT_MRC_CLS-main
----MRC_Reading comprehension()
--------train_fine_tune.py(12KB)
--------down_layer()
--------tokenization.py(22KB)
--------utils.py(8KB)
--------predict.py(6KB)
--------requirements.txt(1KB)
--------optimization.py(13KB)
--------model.py(10KB)
--------snippts.py(13KB)
--------config.py(3KB)
--------README.md(10KB)
--------NEZHA()
----README.md(7KB)
----text_classification()
--------train_fine_tune.py(12KB)
--------utils.py(6KB)
--------predict.py(3KB)
--------preprocess()
--------optimization.py(13KB)
--------model.py(20KB)
--------snippts.py(40KB)
--------config.py(2KB)
--------README.md(7KB)
--------NEZHA()
--------postprocess()