NLP玩得溜，「兵器」得趁手

发布时间：2021-04-20 16:30:15 所属栏目：外闻来源：互联网

导读：自然语言处理领域当今最fashion的神兵，恐怕非预训练语言模型莫属。 2018年BERT横空出世，那真可谓是打开了NLP新世界的大门。且在这条预训练+微调的修行之路上，各路高手那叫一个百花齐放，各领风骚。你看XLNet才把BERT从榜单之巅拉下马，那厢RoBERTa便进

自然语言处理领域当今最fashion的“神兵”，恐怕非预训练语言模型莫属。

2018年BERT横空出世，那真可谓是打开了NLP新世界的大门。

且在这条预训练+微调的修行之路上，各路高手那叫一个百花齐放，各领风骚。

你看XLNet才把BERT从榜单之巅拉下马，那厢RoBERTa便进一步“榨干”BERT性能，重归榜首。

还不仅仅是西方选手轮番登台，文心ERNIE等东方身影也不乏精彩表现。

所以这两年多以来，都有哪些模型表现可圈可点？

今天，诸位看官便不妨随我盘点一番~

如果把预训练语言模型都比喻成兵器，那江湖上自有“百晓生兵器谱”，能给它们排个一二三四五。

GLUE就是自然语言处理领域的权威排行榜之一。

该榜单由纽约大学、华盛顿大学、DeepMind等机构联合推出，一直以来被视作评估NLP研究进展的行业标准。而言，BERT是基于Transformer的深度双向语言表征模型。预训练模型只需要增加一个输出层就可以进行微调，从而适应更广泛的新任务。

这种概念上的简练，正可谓是重剑无锋，大巧不工。

BERT虽好，但缺点也不是没有。比如预训练时的MASK标记在微调时并不会被看到，会产生忽略两个实体之间关联的情况，产生预训练-微调差异。

自回归模型可以避免这样的问题。于是，“鸳鸯剑”XLNet就登场了——这是一个双向特征表示的自回归模型。且，作为一个泛化自回归语言模型，XLNet不依赖残缺数据。

不过就在XLNet“霸榜”一个月之后，BERT的强势继承人就出现了。

Facebook把BERT改进了一番，进一步“榨干”了BERT的性能，以RoBERTa之名重回巅峰。那架势恰是“倚天一出，谁与争锋”。

简单来说，RoBERTa主要做了这样的修改：更长的训练时间，更大的batch，

（编辑：玉林站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

微软人才流失严重高层	谷歌和NASA制作了詹姆
新漫评看，美式民主的	同中国发展外交关系是