80%的数据+20%的模型=更好的机器学习

发布时间：2021-04-18 16:32:27 所属栏目：外闻来源：互联网

导读：rxiv上查找机器学习相关的研究时，所有模型都在围绕基准测试展示自己模型的能力，例如Google有BERT，OpenAI有GPT-3，这些模型仅解决了业务问题的20％，在业务场景中取得更好的效果需要更好的数据。传统软件由代码提供动力，而AI系统是同时使用代码（模型+算

rxiv上查找机器学习相关的研究时，所有模型都在围绕基准测试展示自己模型的能力，例如Google有BERT，OpenAI有GPT-3，这些模型仅解决了业务问题的20％，在业务场景中取得更好的效果需要更好的数据。

传统软件由代码提供动力，而AI系统是同时使用代码（模型+算法）和数据构建的。以前的工作方式是，当模型效果不理想，我们就会去修改模型，而没有想过可能是数据的问题。

机器学习的进步一直是由提高基准数据集性能的努力所推动的。研究人员的常见做法是在尝试改进代码的同时保持数据固定，以模型改进为中心对模型性能的提升实际上效率是很低的。但是，当数据集大小适中（<10,000个示例）时，则需要在代码上进行根据剑桥研究人员所做的一项研究，最重要但仍经常被忽略的问题是数据的格式不统一。当数据从不同的源流式传输时，这些源可能具有不同的架构，不同的约定及其存储和访问数据的方式。对于机器学习工程师来说，这是一个繁琐的过程，需要将信息组合成适合机器学习的单个数据集。

小数据的劣势在于少量的噪声数据就会影响模型效果，而大数据量则会使标注工作变得很困难，高质量的标签也是机器学习模型的瓶颈所在。

这番话也引起机器学习界对MLOps的重新思索。

MLOps是什么？

MLOps，即Machine Learning和Operations的组合，是ModelOps的子集，是数据科学家与操作专业人员之间进行协作和交流以帮助管理机器学习任务生命周期的Ops或DataOps方法类似，MLOps希望提高自动化程度并提高生产ML的质量，同时还要关注业务和法规要求。

互联网公司通常用有大量的数据，而如果在缺少数据的应用场景中进行部署AI时，例如农业场景

，你不能指望自己有一百万台拖拉机为自己收集数据。

基于MLOps，吴恩达也提出几点建议：

MLOps的最重要任务是提供高质量数据。
标签的一致性也很重要。检验标签是否有自己所管辖的明确界限，即使标签的定义是好的，缺乏一致性也会导致模型效果不佳。
系统地改善baseline模型上的数据质量要比追求具有低质量数据的最新模型要好。
如果训练期间出现错误，那么应当采取以数据为中心的方法。
如果以数据为中心，对于较小的数据集（<10,000个样本），则数据容量上存在很大的改进空间。
当使用较小的数据集时，提高数据质量的工具和服务至关重要。

一致性的数据定义，涵盖所有边界情况，从生产数据中得到及时的反馈，数据集大小合适。

吴恩达同时建议不要指望工程师去尝试改善数据集。相反，他希望ML社区开发更多MLOps工具，以帮助产生高质量的数据集和AI系统，并使他们具有可重复性。除此之外，MLOps是一个新生领域，MLOps团队的最重要目标应该是确保整个项目

（编辑：玉林站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

微软人才流失严重高层	谷歌和NASA制作了詹姆
新漫评看，美式民主的	同中国发展外交关系是