不同于Radford等人(2018)使用单向语言模型进行预训练,BERT使用MLM预训练深度双向表征。代码和预训练模型将发布在goo.gl/language/bert。与从左到右的语言模型预训练不同,MLM目标允许表征融合左右两侧的语境,从而预训练一个深度双向Transformer。自然语言处理有预训练好的模型么?在计算机视觉领域,我们知道有很多预训练权重,例如vgg、resnet、densenet、mobilenet、shufflenet等等。在NLP领域,这方面的预训练模型目前并不是很多,不过很多NL...
更新时间:2022-04-01标签: 模型从大炼炼大训练 全文阅读