业界 | 谷歌、百度等联合发布机器学习新基准MLPerf，旨在促进AI发展和公众参与

作者：机器之心来源：机器之心公众号

分享到：

05-04

选自hpcwire

作者：John Russell

机器之心编译

参与：刘晓坤、路

昨日，来自学界和业界的多个组织（包括谷歌、百度、英特尔、AMD、哈佛和斯坦福）共同发布了新型基准 MLPerf，「用于衡量机器学习软硬件的速度」。

长期以来，市场上的 AI 性能对比一直比较粗略，鱼龙混杂且通用性不足，难以作为参考，但 AI 基准之战即将开始。今天，来自学界和业界的多个组织（包括谷歌、百度、英特尔、AMD、哈佛和斯坦福）共同发布了新型基准 MLPerf，「用于衡量机器学习软硬件的速度」。

上周，RiseML 发布博客，对比了谷歌的 TPUv2 和 Nvidia V100。今天，英特尔发布博客，展示了使用 RNN 执行机器翻译时选择软硬件的相关数据。

很长时间以来，围绕对有意义的 AI 基准出现大量讨论，支持者认为此类工具的缺乏限制了 AI 的应用。MLPerf 发布公告引用了 AI 领域先驱吴恩达的话：「AI 正在改变多个行业，但是要想完全发挥其潜力，我们仍然需要更快的硬件和软件。」我们希望更好、更标准化的基准能够帮助 AI 技术开发者创造出此类产品，允许采用者做出明智的 AI 技术选择。

MLPerf 称其主要目标是：

通过公平、有用的度量来加速 ML 的进展；
推动互相竞争的系统之间的公平对比，同时鼓励创新，以提升 ML 领域的当前最优水平；
使基准测试可负担，所有人都可以参与其中；
服务商业和研究社区；
强制要求复现性，以确保结果的可靠性。

AI 性能对比（h/w 和 s/w）目前主要由既得利益者发布，如英特尔近日的博客《Amazing Inference Performance with Intel Xeon Scalable Processors》。这并不是在针对英特尔。此类对比通常包含有用的见解，但是它们通常用于展示一方比另一方的优势。标准化基准可以缓解这一状况。

MLPerf 在模拟之前的一些尝试，比如 SPEC（标准性能评估组织）。「SPEC 基准加速了通用计算方面的进步。SPEC 于 1988 年由多个计算公司联合成立。接下来的 15 年中 CPU 性能提升 1.6X/年。MLPerf 将之前基准的最佳实践结合起来：SPEC 使用的一套程序；SORT 的一个部门来做性能对比，另一个部门负责创新；DeepBench 覆盖产品中的软件部署；DAWNBench 的 time-to-accuracy 度量。」MLPerf 称。

Intersect360 Research 的 CEO Addison Snell 称：「现在那么多公司在发展 AI，提供基准测试的尝试具备极高的重要性，尤其是对于大量互相竞争的技术。但是，AI 领域非常多样化，我怀疑是否会出现主导的单一基准。想想五年前所有围绕大数据和分析学的热情；尽管每个人都尝试定义它，行业并没有提供一个统一、常用的基准。我认为 AI 领域也会是这种情况。」

Hyperion Research 的高级研究副总裁 Steve Conway 称 MLPerf 是「很好、很有用的」一步，「因为多年来对于买方和卖方来说确实缺乏一个基准来展现不同 AI 产品和解决方案之间的区别。这个基准似乎是为了解决如今 AI 早期主要的受限问题（bounded problem）而创建的。之后随着 AI 开始出现未受限问题（unbounded problem，它们将是经济上最重要的问题），我们将需要额外的基准。受限问题相对简单，例如声音和图像识别或玩游戏等。未受限问题例如诊断癌症，其对应的受限问题可能是读取 MRI 图像；未受限问题能够在非常复杂的问题上推荐决策。」

MLPref 已经在 GitHub 上开源，但仍然处于非常早期的阶段，正如 MLPref 所强调的：「这次发布的更像是一个内部测试版，它仍可以从多个方面改进。该基准仍然在开发和精炼中，可以查看下方的 Suggestions 部分了解如何贡献该开源项目。我们期待在五月末能基于用户输入进行大幅更新。」

目前在 MLPerf 套装中的 7 个基准，每一个都有参考实现：

图像分类—ResNet-50 v1（ImageNet）
目标检测—Mask R-CNN（COCO）
语音识别—DeepSpeech2（Librispeech）
翻译—Transformer（WMT English—German）
推荐—Neural Collaborative Filtering（MovieLens 20 Million (ml-20m)）
情感分析—Seq-CNN（IMDB 数据集）
强化学习—Mini-go（预测 pro 游戏中的移动）

每个参考实现提供了：至少在一个框架中实现模型的代码；可用于在一个容器内运行基准的 Dockerfile；下载合适数据集的脚本；运行模型训练和计时的脚本；数据集、模型和机器设置的相关文档。

这些基准已经在以下的机器配置上进行了测试：

16 块 CPU、一块 Nvidia P100；
Ubuntu 16.04，包含 docker 和 Nvidia 支持；
600GB 硬盘（虽然很多基准不需要这么多硬盘空间）。

业界选择结合几个 AI 基准还是让基准数量激增是很有趣的现象。在这样一个年轻的市场，大部分人选择提供基准测试工具和服务。例如，斯坦福（MLPerf 成员）近日发布了它的第一个 DAWNBench v1 Deep Learning 结果。

斯坦福报告称：「2018 年 4 月 20 日，我们发布了第一个衡量端到端性能的深度学习基准和竞赛，这些性能包括：在常见深度学习任务中达到当前最优准确率级别所需的时间/成本，以及在当前最优准确率级别上执行推断的延迟/成本。聚焦于端到端性能提供了标准化计算框架、硬件、优化算法、超参数设置和其它重要因素的区别的客观手段。」像 MLPerf 这样的项目可以在当前对比 AI 性能的时候，清除那些模糊不清的因素。

原文链接：https://www.hpcwire.com/2018/05/02/mlperf-will-new-machine-learning-benchmark-help-propel-ai-forward/

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者/实习生）：hr@jiqizhixin.com

投稿或寻求报道：editor@jiqizhixin.com

广告&商务合作：bd@jiqizhixin.com

查看原文

阅读9157

联合

关注机器之心微信号：almosthuman2014