NLP玩得溜,「兵器」得趁手
|
自然语言处理领域当今最fashion的“神兵”,恐怕非预训练语言模型莫属。 2018年BERT横空出世,那真可谓是打开了NLP新世界的大门。 且在这条预训练+微调的修行之路上,各路高手那叫一个百花齐放,各领风骚。 你看XLNet才把BERT从榜单之巅拉下马,那厢RoBERTa便进一步“榨干”BERT性能,重归榜首。 还不仅仅是西方选手轮番登台,文心ERNIE等东方身影也不乏精彩表现。 所以这两年多以来,都有哪些模型表现可圈可点? 今天,诸位看官便不妨随我盘点一番~ 且看GLUE兵器谱如果把预训练语言模型都比喻成兵器,那江湖上自有“百晓生兵器谱”,能给它们排个一二三四五。 GLUE就是自然语言处理领域的权威排行榜之一。 该榜单由纽约大学、华盛顿大学、DeepMind等机构联合推出,一直以来被视作评估NLP研究进展的行业标准。而言,BERT是基于Transformer的深度双向语言表征模型。预训练模型只需要增加一个输出层就可以进行微调,从而适应更广泛的新任务。 这种概念上的简练,正可谓是重剑无锋,大巧不工。 鸳鸯剑 XLNetBERT虽好,但缺点也不是没有。比如预训练时的MASK标记在微调时并不会被看到,会产生忽略两个实体之间关联的情况,产生预训练-微调差异。 自回归模型可以避免这样的问题。于是,“鸳鸯剑”XLNet就登场了——这是一个双向特征表示的自回归模型。且,作为一个泛化自回归语言模型,XLNet不依赖残缺数据。 倚天剑 RoBERTa不过就在XLNet“霸榜”一个月之后,BERT的强势继承人就出现了。 Facebook把BERT改进了一番,进一步“榨干”了BERT的性能,以RoBERTa之名重回巅峰。那架势恰是“倚天一出,谁与争锋”。
简单来说,RoBERTa主要做了这样的修改:更长的训练时间,更大的batch, (编辑:玉林站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |



