文件名称:kirt_bert_on_abci:在ABCI上对BERT进行培训
文件大小:994KB
文件格式:ZIP
更新时间:2024-06-15 22:53:14
Python
ABCI-BERT_BETA 使用 (测试版)上对进行培训。 ***新更新*** 按长度分组样本 在此版本中,我们将样本分为三个块,每个块的长度固定(128、256、512)。 长度为N的块包含长度<=(N-2)的句子的串联 对于连续的短句子,我们将其视为长句子并直接将其合并。 对于不连续的短句,我们在它们之间添加了分隔符。 来自不同文档的句子也将带有分隔符 将通过上述连接方法构建块N中的一个样本,直到它们达到N-2的长度。 2个空格用于CLS和SEP令牌 直接从代币训练 alpha版本中的管道为:生成令牌->根据令牌生成训练数据->根据生成的数据进行训练。 在此Beta版本中,我们将该流程缩短为:生成令牌(按长度分组)->从令牌进行训练 生成令牌时支持多处理 我们意识到,没有必要将所有原始文本放入一个文件中,因为这样可以避免使用多处理功能。 在此版本中,我们建议用户将其原始文本拆分为