阿里巴巴华先胜揭秘城市大脑落地实践和踩坑经验

作者：InfoQ 来源：InfoQ 公众号

分享到：

09-27

撰稿 | Debra

采访嘉宾 | 华先胜

视觉识别和视觉搜索是视觉智能中两项最为常见和重要的任务。基于内容的图像检索技术——视觉搜索由于应用前景广阔、能为用户带来更便捷、更优化的体验而越来越受到研究和应用领域的青睐。然而，在技术和应用层面，虽然视觉搜索在有些领域取得了巨大突破，在更广泛的领域还面临着诸多挑战。阿里巴巴视觉智能计算团队重点研究的“城市大脑”项目，就在视觉搜索技术上拥有很多落地实践和克服困难的经验。他们踩过哪些坑呢？对于视觉搜索这项技术，他们的看法是什么？

视觉搜索，又称基于内容的图像检索，成为近年来计算机视觉的一个热门研究领域。视觉搜索不同于文字搜索，可以以图像的形式直观地搜索所需内容，因此在社交媒体、电商搜索等实际应用场景中非常受欢迎，如社交软件 Snapchat 上线了“相机搜索”，通过这一功能，用户可以长按识别图片或短视频中的商品、歌曲、条形码等；eBay、淘宝、京东等电商平台也纷纷推出图片搜索功能，用户可以通过拍照找到想要的商品，提高搜索效率，提升用户体验。

阿里巴巴视觉智能团队的重点研究方向“城市大脑”项目，就包含了基于图像搜索的技术而达到“智慧城市”的目的，并且在落地场景中获得了很多经验和突破。

据悉，阿里巴巴视觉智能计算团队目前的重点在四个方向：城市大脑，医疗 AI，工业视觉和智能设计。其中“城市大脑”致力于通过云计算和人工智能技术去解决依靠人脑无法解决的城市治理和发展问题。围绕这一目标，阿里巴巴目前的重点研究方向包括：多模态城市感知、交通预测与干预、并行异构计算加速、基于视频的行人与行为搜索识别、大规模城市视觉计算平台等。

基于视频的城市对象感知几乎是所有工作的基础，也是阿里率先取得突破的技术方向之一。在过去一年，阿里巴巴视觉智能计算团队先后取得了 KITTI（全球权威机器视觉算法排行榜）比赛中车辆检测和行人检测两项测评的冠军。在行人再识别任务中，也在公开数据集 Market-1501 上取得了当前最好成绩（97% 首位命中率），并在实践中得以广泛应用。

阿里巴巴在其他方面，如深度模型压缩等也有突破。智能设计当中最为突出的是电商场景的二维广告图设计，基于深度学习和强化学习的方法，可以高效地设计出初级设计师水准的广告图，并在双 11 等场景中得以大规模应用。

“城市大脑”如何工作？

阿里巴巴的“城市大脑”项目需要处理整座城市的海量数据，这一挑战的难度可想而知。

“城市大脑”是如何处理整个城市的视频数据呢？使用到了哪些计算机视觉 AI 算法进行优化和决策？

城市大脑人工智能技术负责人华先胜为我们揭开了谜底：“简单来讲，城市大脑可以分为这么几个步骤，首先是 数据的汇聚，通过数据管道将各个部门的数据汇聚到我们的数据平台上来。第二步是 数据的认知，当然其中主要是视频数据要通过我们的认知平台进行认知，要把整个城市发生的事情了解的一清二楚。这其中包含的视觉算法很多，从常见的分类、检测、跟踪、分割，到特征学习、视觉检索、异常检测等等都会用上。第三步是在认知的基础上，进行 决策和优化。当我们对城市的整个交通状况有了了解之后，我们就可以进行红绿灯配时的优化，或者交通事件、事故的实时报警。在前面几步的基础上，第四步我们 把城市的要素，车、人、事、物全部放到搜索引擎里面 去，进行 快速的查找。例如对肇事车辆、特定目标的查找。当然也可以挖掘这些数据的联系，从而发掘事故事件以及一些交通现象背后的发生的原因。第五步是预测，预测城市的发展趋势是什么样子的。比如说半个小时以后路口的车流或者一个大型商场周边的人流的情况。第六步是干预，因为有了预测以后，我们就可以进行对应的处理，例如说如果我们知道一个小时以后的人流和车流会出现显著地增加，那我们可以提前部署紧急人力甚至是医疗资源来应对一些突发的事件。”

总结来说，从数据汇聚、数据认知、决策优化、搜索挖掘、预测到干预，整个一条流程是整个城市大脑的主要功能的体现。华先胜还透露，这些功能都是基于一套 大规模视觉智能计算开放创新平台 而得以实现，而这个平台在刚刚结束的杭州云栖大会上对外发布，近期会开放出来，让更多的人能够在城市这个规模进行视频的分析和视频大数据的价值挖掘。

华先胜表示，实时处理整个城市的视频数据确实是一个非常艰巨的任务，团队遇到的主要困难之一是 计算资源的消耗。“即使我们已经拥有云集群、GPU 等很强的算力，但是如果不经过任何优化，在合理的机器成本下，依然无法实时处理整个城市的海量视频数据。因此我们从多个方向发力来解决这个问题，首先是模型的精简和加速，众所周知深度学习模型的通病之一是参数量大、推理时间长，因此我们利用了矩阵分解、稀疏量化等技术进行模型精简和加速。其次我们也和 Intel、英伟达等硬件厂商进行深度合作，从底层硬件角度进行计算加速，将硬件的性能发挥到极致。再者，在单个计算节点上的调度，也是提升整体效率的有效方法。另外，我们也开发了 基于流式计算平台的智能调度模块，通过并行处理、弹性调度等方式进行处理流程优化。这些技术将单台服务器的处理能力提升了 20 多倍。同时我们也在布局低成本的解决方案，比如专用 FPGA 芯片等。”

图像搜索如何改进？

图像搜索是计算机视觉、多媒体领域的一个很经典的问题，近些年随着深度学习算法的发展，这个领域也取得了很快速的发展，但是随着实际应用场景的扩展、数据规模的扩大，也有很多可以优化的地方。

那么，阿里巴巴是如何从技术层面和应用场景层面上改进图像搜索技术的呢？

华先胜表示，阿里巴巴曾在三年前克服了很多技术难题，研发出商品拍照搜索应用“拍立淘”，而城市视觉元素的搜索，因其数据的复杂度和数量，则是更为困难的一个问题。

“从 技术层面 来说，首先我们需要一个更好的 特征模型，来学习细粒度的图像特征。除了目前比较火的 local feature、attention 等技术外，一个比较有趣的方向是，在特定的图搜任务下，如何引入一些人类的 先验知识，比如车辆的刚体结构、人的骨架信息等等。其次，视频数据会比图像数据具有更丰富的表征，如何利用视频数据进行检索也是一个很有潜力的方向。

基于深度学习的图像搜索依赖大量的标注数据，这其实很大程度上限制了算法在实际应用场景下的扩展，如何利用 半监督、弱监督、无监督算法 提升算法性能是一个 关键问题。

其次 真实场景下 的数据规模很大，在海量的图像库中进行欧式距离的计算会带来很高的延时，限制了算法在实时场景下的应用，因此高效的向量索引技术也是在实际场景中落地的必备组件。”

由此可见，图像搜索技术还有很多有待提升的空间，有望改进搜索精度不够、搜索结果不匹配等在实际应用中经常出现的问题。

华先胜认为，未来，视觉搜索在众多场景中具有非常大的商业化潜力，城市大脑就是一个很大的应用场景。

“城市对象的感知其实是城市大脑的一个基础组件，而城市对象的视觉特征提取就是感知的重要组成部分。通过对城市对象进行特征提取，我们可以在海量的数据中搜索出特定目标的移动轨迹。在交通场景下，可以帮助我们构建精确的车流、人流数据，从而服务上层的流量预测与干预应用。阿里巴巴的渐进式视觉搜索引擎已经在衢州投入使用，可以帮助有关部门寻找走失人口，保障平民生命财产和资源安全。”

讲师简介

华先胜，现任阿里巴巴集团 Distinguished Engineer，副总裁，阿里巴巴人工智能核心研发机构达摩院机器智能技术实验室副主任，城市大脑人工智能技术负责人。华博士是美国电气与电子工程师协会会士（IEEE Fellow），美国计算机协会杰出科学家（ACM Distinguished Scientist）；2008 年获 MIT 技术评论“全球 35 个 35 岁以下杰出青年创新者”称号（TR35）。1996 年和 2001 年毕业于北京大学数学学院，分别获学士和博士学位；之后分别工作于微软亚洲研究院，微软美国必应搜索引擎，以及微软美国研究院，从事多媒体、计算机视觉和机器学习方面的研发工作。2015 年 4 月加入阿里巴巴，任搜索事业部资深总监 / 研究员；2016 年加入阿里巴巴 iDST，负责云上视觉智能计算的技术研发。他的研发兴趣在大规模视觉人工智能领域，包括视觉分析、识别、搜索和挖掘等。华博士在国际主流会议和期刊上发表论文 200 余篇，拥有专利 90 余项。曾担任多个学术期刊的副主编以及 ACM Multimedia 等顶级学术会议的程序委员会主席，并获得多个国际会议及期刊的最佳论文奖。华博士将担任多媒体智能领域顶级国际学术会议 ACM Multimedia 2020 年大会主席。

华先胜将会在 12 月份 AICon 全球人工智能与机器学习技术大会上担任联席主席，想要跟华老师进一步交流的童鞋可到现场面基。

另外大会还邀请到了来自 Google、Twitter、Netflix、BAT、360、京东、美团、小米、今日头条等 40+ 国内外一线 AI 技术负责人前来分享他们的机器学习落地实践经验，除此之外，还有知识图谱、NLP、语音识别、搜索推荐、计算机视觉、AI 架构等热门技术，干货满满。

目前大会 6 折售票倒计时 4 天，团购更优惠，点击“阅读原文”了解更多详情。如有任何问题，可咨询票务小姐姐：18514549229［微信同号］

查看原文

阅读8899

阿里巴巴

关注InfoQ微信号：infoqchina