业界 | AI技术不是趋同，而是正在放大差距

作者：机器之心来源：机器之心公众号

分享到：

05-21

机器之心报道

作者：吴欣

「暴火」了两年多之后，在中国人工智能领域，渐渐有了更多理性思考的发声。在 5 月 19 日召开的 2018 年中国图灵大会上，依图科技 CEO 朱珑博士就讲到：AI 发展太快，全球研究的积累不够的背景下，各种 AI 观点甚嚣尘上，技术上难辨真假、好坏，AI 跳跃性的发展也使得 AI 进入到没有技术权威的时代，并且这是整个时代呈现出的特点。

依图是诞生于 2012 年的一家人工智能创业公司，CEO 朱珑创办依图前，在美国做过十多年 AI 相关的研究，15 年前他还在微软亚洲研究院做过研究。在美国期间，朱珑先是在 UCLA 读统计建模和统计学计算方向的博士，当时他的导师叫艾伦·尤尔，艾伦的博士导师就是著名的理论物理学家霍金。后来，朱珑进入麻省理工学院的 AI Lab，做计算机视觉建模相关的博士后研究员；回国创业前，朱珑在深度学习爆发之前 Yann Lecun 的实验室做研究。

既有强大的学术界的背景，又在工业界创业期间历经中国 2012 到 2018 年，朱珑深感于中国发生的巨大变化——在过去中国没有成熟的科技创业的情景和市场机制，而这几年开始，中国各种背景的人在一起交流的越来越多，并且这已经是新的形态。他解释说，过去，政府、投资者、媒体这三者是比较频繁交流的，但是在 2012 年之前，学术界不像今天这样经常会被政府邀请来交流，也不会被一流的投资基金邀请交流。

那么人工智能技术的发展是否也进入了新的形态？最近甚至有一些讨论：技术是不是发展到了瓶颈？各项算法之间有没有区别？

AI 技术不是趋同，而是正在放大差距

随着 AI 热潮的涌现，各家 AI 公司都会频繁参加一些比赛以证明自己的算法实力，以人脸识别算法为例，各家 AI 公司在 LFW 等类似的计算机视觉比赛中都取得 99.xx% 的成绩。于是人们会问：AI 算法是否已经趋同了？如果算法精度差别不大（只有几个百分点），是否意味着创业公司的技术已经同质化了，没有技术创业的核心竞争力了呢？

实际上，这是典型的认知误区。我们在朱珑的演讲中看到了一张表，可能更准确的回答了这个问题，这是中国某省 1 亿人像库，在真实刑侦案件的破案环境下性能测试的对比表，参与方是知名的几大人脸识别公司：

我们可以这样理解这张图：必须对应场景来谈算法精度。不同场景的算法精度不具备任何可比性，甚至不代表有相关性。换句话说，简单场景下算法精度高，不代表在复杂的高难度场景下有更大的概率可以把算法精度做高。好比在小学考试中拿满分，未必能在大学考试中也拿满分。

如今，很多学术界比赛使用的都是公开数据集，数据集内多是互联网照片，相当于是一场难度不大的开卷考试，「考生」很容易就可以把测试成绩刷到比较高，这就出现了上面提到的，各家 AI 公司类似 LFW 之类的计算机视觉比赛中都能取得 99.xx% 的成绩。

然而，在实际应用中，技术遇到的会是各种无法预见的高难度场景，包括变形、昏暗、逆光、强光、光照不均、低清、运动模糊、遮挡、跨年龄段比对、面部变形等等，在这种情况下，各家的差距被迅速拉开，第二名和第一名的错误率能相差几倍以上，远未到趋同的程度。

进入实战后，技术的差距体现在具体产品或应用上，不是简单的好用和一般好用的差距，而是可用和不可用的差距，而实战中是要以最高效率解决实际问题为目的。假如在一个 1 亿级别的人像系统中进行 1：N 的静态比对，错误率相差几倍，就导致使用者的做事效率下降几倍。即便使用者是在一个多算法平台上，久而久之，他也只会倾向于使用第一名的算法。

可见，人工智能技术不是趋同，相反，是正在放大差距！

AI 提供了一把「尺子」，帮助探索人类智慧边界

依图科技曾经做过一个实验，在千万量级的身份数据库上，一个人将女朋友的生活照输入进去，在 AI 输出相似度前十的照片中，这个人完全无法辨别哪张照片上面的脸属于他的女朋友。这意味着，AI 从过去识别生人的能力比人强，到今天，识别熟人的能力也已经超越人类了。

这就引发了另外一个问题：我们人类自身的识别能力的规模和精度，到底是什么程度的？朱珑在现场展示了下面这张相似度分布图：

右上角是输入的人像图片跟自己身份证件照的比对，相似度分数是 98 分；跟自己十年前的照片相比是 97 分；跟自己的圣诞节彩妆照（采光清晰）比对得到了 88 分；跟自己儿童时代的照片比是 76 分；在重度化妆之后，就跌到了 40 分。

最右下角是一对同卵双胞胎，在机器眼中，它们的相似度达到 98 分；往左一组，是一个机构里最像的两个人（非双胞胎），它们的分数能达到 90 分；再往左一组，相差几岁的姐妹相似度为 64 分；而网友觉得很像的姚明和李宇春，机器打了 60 分。据说，2013 年第 57 届韩国小姐，前 18 名佳丽的两两间平均相似度是 63 分，很接近姐妹；18 位中最像的一对达到惊人的 90 分！

在过去，人类无法做任何科学实验来获取结果，然而今天有了人工智能，机器可以提供一个非常稳定的表现，当识别数据规模非常大的时候，也能够很轻易地识别 1 亿人、10 亿人。这样一来，机器识别相当于提供了一把尺子，根据相似度比例筛选出来给人去测，可以在有效的时间里面，测出一个人自己「看」这个世界的能力。而这也是人类第一次有一个非常稳定的机器，具备识别能力，可以看到人和机器智能的差别程度。

依图还做了另外一个颇为有趣的实验：在 13 亿中国人中有多少人跟你长的一模一样？「一模一样」的定义是连自己的妈妈也辨别不出来。

实验的结果是，每 1 亿人当中就有一个人跟自己长的一样，这「一亿分之一」的区分度意味着什么呢？每 1 亿人当中就有一个人跟你长的像，又意味着什么？或许可以从人类基因进化的角度做一些解读。

在人类进化过程中，视觉识别能力在各大感官中的比重越来越大，也许是因为人类开始进行穿着，人嗅觉识别家庭成员的能力与其他哺乳动物相比，算是比较低下，甚至人类主要就是通过看人脸来辨别同类。选择压力驱使人类的脸之间的区分度需要尽量的大，这样才能保证家庭成员的稳定性得到保障。

作为社群动物，人需要和大量同类打交道，而脸部识别错误的代价将是失去整个基因组的遗传继承。就好比，人类出门回家后，认不出自己的孩子、父母、老婆，一定会引发社会动荡，影响到人类的基因进化。

实际上，对应的编码人脸形状的基因数量需要很大，目前知道有一条染色体的一大块用于编码脸部特征。而一亿分之一的识别度将是一个具有巨大社会学意义的统计数值，背后还会有更多的生物学意义也值得更近一步的探讨。

本文为机器之心报道，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者/实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告&商务合作：bd@jiqizhixin.com

查看原文

阅读8854