一、现状
作为人工智能一个重要分支的深度学习,也正在受到大家越来越多的关注。2016 年是深度学习高速发展的一年。在这一年中,无论是工业界、学术界还是广大群众都投身到了深度学习的洪流之中。在工业界,谷歌(Google)、脸书(Facebook)、百度、阿里巴巴等一系列国内外大公司纷纷对外公开宣布了人工智能将作为他们下一个战略重心。在人才方面,继深度学习界泰斗吴恩达(Andrew Ng)加入百度、Yann LeCun 加入脸书之后,各大 IT 公司开始哄抢学术界大牛。斯坦福大学教授、计算机视觉领域领军人物李飞飞(Feifei Li)于今年 11 月加入谷歌;卡内基梅隆大学教授、机器学习领域顶级人物 Alex Smola 于今年 6 月加入亚马逊(Amazon)。在工具方面,谷歌、脸书、百度、微软、亚马逊等公司相继开源了各自的深度学习框架,谁能引领人工智能的潮流将成为各大IT公司的下一个战场。
3 月:AlphaGo 战胜李世石
在北京时间 2016 年 3 月 15 日的下午,谷歌开发的围棋深度学习系统 AlphaGo 以总比分 4:1 战胜了韩国棋手李世石,成为第一个在 19×19 棋盘上战胜人类围棋冠军的智能系统。AlphaGo 战胜李世石把深度学习的概念从学术界推向了大众,并点燃了大众对于人工智能的巨大热情。虽然 AlphaGo 不是第一个战胜人类世界冠军的系统,但 AlphaGo 的胜利绝对是人工智能历史上的一座里程碑。
和 1997 年 IBM 的智能系统深蓝(deep blue)击败国际象棋世界冠军卡斯帕罗夫不同,完全依靠计算机的运算速度是几乎无法在 19×19 的围棋棋盘上战胜人类的。为了在完整的围棋棋盘上战胜人类世界冠军,AlphaGo 需要使用更加智能的方式。深度学习技术为这种方式提供了可能。在 AlphaGo 的核心组成部分中,估值网络(Value Network)和走棋网络(Policy Network)都使用到了深度学习的技术,这也是 AlphaGo 背后真正的大脑。
虽然 AlphaGo 战胜李世石将人工智能推向了一个新的高度,但它的能力也不应该被过分放大,更不应该认为人工智能全面超越人类的时代即将来临。因为 AlphaGo 能够解决的仅仅只是在一个特定环境中定义好的问题,要将人工智能系统真正的应用到开放环境还需要研究人员更多的努力。这也将是 AI 未来发展的方向。
4 月:TensorFlow 发布分布式版本
虽然 TensorFlow 已经支持分布式,但如果类比 TensorFlow 和 Hadoop 系统,那么 TensorFlow 相当于只实现了 Hadoop 系统中 Mapreduce 计算框架的部分。要将 TensorFlow 真正应用到真实的生产环境仍然存在门槛。为了解决这个问题,才云科技将 Kubernetes 与 TensorFlow 结合,通过 Kubernetes 实现了对 TensorFlow 任务的监控、调度与管理,让 TensorFlow 的使用门槛变得更低。
为了解决这个问题,TensorFlow 于今年 4 月发布了版本 0.8.0。从该版本开始,TensorFlow 开始支持分布式模型训练。分布式 TensorFlow 可以极大的加速神经网络的训练过程,上图展示了分布式 TensorFlow 的加速比率。从图中我们可以看到,通过 100 个 GPU 并行的方式,Inception-v3 模型的训练速度可以加快 65 倍,这使得原来需要半年的训练过程可以在不到 3 天的时间内得到结果。这也标志着 TensorFlow 从一个玩具变成了真正能用的工具。在 TensorFlow 0.8.0 发布不久,DeepMind 也宣布之后的所有系统都将基于 TensorFlow 来开发。
虽然 TensorFlow 已经支持分布式,但如果类比 TensorFlow 和 Hadoop 系统,那么 TensorFlow 相当于只实现了 Hadoop 系统中 MapReduce 计算框架的部分。要将 TensorFlow 真正应用到真实的生产环境仍然存在门槛。不过,将 Kubernetes 与 TensorFlow 结合,通过 Kubernetes 实现对 TensorFlow 任务的监控、管理,可以有效解决这些问题。
6 月:Prisma 图像风格转换 App 上线
Prisma 是一款通过深度学习技术改变图像风格的手机 App。该应用上线之后,在短短一个星期时间内下载量超过了七百万次,且拥有超过一百万的活跃用户。该应用的推出标志着深度学习技术不仅是一门科学,它更可以被应用于艺术领域。下图展示了经过 Prisma 处理之后的图片效果。Prisma 的出现将深度学习技术从高深的学术研究推到了大众的日常生活,让其更加广泛的被大众所了解。在该软件之后,更多图像、视频风格转换(比如像脸书推出的 Caffe2Go)、自动音乐作曲等软件被陆续推出。
7 月:谷歌智能数据中心
继 AlphaGo 之后,谷歌的 DeepMind 团队将深度学习的技术用在了智能数据中心上。通过增强学习(reinforcement learning),新的数据中心智能系统可以更好的配合机器内的风扇和数据中心的空调使得既可以保证所有机器的散热,又可以最大限度的降低能源的消耗。通过控制数据中心内 120 多种不同的设备,智能数据中心可以节省大约 15% 的能源开销,每年为谷歌节省数百万美元的成本。而且这只是深度学习在智能数据中心应用的开始,DeepMind 团队还在尝试安装更多的传感器和控制器使得数据中心的能源利用率可以进一步提升。
8 月:SyntaxNet 发布 40 种语言的语法分析模型
在今年 5 月,谷歌发布了基于深度学习的自然语言理解(Natural Language Understanding, NLU)算法框架 SyntaxNet,并且提供了训练好的英语语法分析器 Parsey McParseface。在随机抽取的 Penn Treebank 新闻数据集上,该语法分析器可以达到超过 94% 的准确率。这样的正确率已经超过了以往所有的算法,并已经非常接近不同语言学家之间大约 96%-97% 的认同率。不同语言学家对同一句话可能有不同的分析,认同率刻画了他们之间彼此认同的概率有多高,这也大致给出了计算机可以达到的理论上限。不过这只是在文法非常规范的新闻数据集上,在谷歌从网页上整理得到的 Web Treebank 数据集上,Parsey McParseface 可以达到大约 90% 的正确率。
在继 Parsey McParseface 之后,谷歌于今年 8 月又开源了 40 种其他语言的分析模型,并且同时支持文本分割(Text segmentation)和形态学分析(Morphological Analysis)功能。到目前为止,通过 SyntaxNet 开源的模型已经可以分析覆盖全球半数以上人口的母语,而且在大部分语言上,分析的准确率都是目前全球最高的。上图展示了使用 SyntaxNet 中文分析模型对中文句子的语法分析结果。深度学习将自然语言处理问题中最基础的语法分析问题又向前推近了一大步。将这些模型开源将大大加速自然语言处理领域的研究进展。
9 月:谷歌上线基于深度学习的机器翻译
今年 9 月,谷歌正式发布了基于神经网络的机器翻译系统(Googel Neural Machine Translation system,GNMT)。该系统基于深度学习技术,可以巨幅提高翻译的准确率。与基于短语翻译的传统机器翻译算法相比,基于深度学习的翻译算法可以直接翻译一整句话,这可以大大简化翻译系统的设计,同时更高效的利用海量训练数据。根据谷歌的实验结果,在主要的语言上,基于深度学习的翻译算法可以将翻译结果的质量提高 55% 到 85%。下表对比了不同算法翻译同一句话的结果。从这句话中,我们可以直观的看到深度学习算法带来的翻译质量的提高。
不同翻译算法的翻译效果对比表:
从今年 9 月开始,在谷歌翻译产品中,所有从中文到英文的翻译请求都是由基于深度学习的翻译系统完成。谷歌使用的基于深度学习的翻译系统完全是通过其开源产品 TensorFlow 实现的,该系统目前每天处理了接近两千万次翻译请求。从中文翻译成英文只是谷歌翻译支持的一个语言对,之后谷歌还会将基于深度学习的翻译算法应用到更多的语言对上。
11 月:DeepMind 和暴风雪公司开始在星际争霸 2 上开展合作
在今年的 3 月,DeepMind 团队开发的 AlphaGo 战胜人类围棋世界冠军不是人机博弈的终点,相反,这只是一个开始。DeepMind 在今年 11 月正式开启了和暴风雪游戏公司的合作,将他们下一个目标定在挑战星际争霸 2这款即时战略游戏上。相比围棋,星际争霸 2 是一个更加开放的环境,对于深度学习系统的设计难度又有指数级的提高。首先,虽然 19×19 的围棋棋盘可能有多种不同的状态,但星际争霸 2 的状态总数几乎是无限的,再加上这款游戏对即时性的要求,所以将对整个深度学习提出更高的要求。其次,星际争霸2是一个信息不对称的系统,玩家只能看到自己的地图,这要求深度学习系统对“局势”做出判断。
在 BlizzCon 2016 上,暴风雪公司宣布将开发一个对深度学习系统更加友好的 API,从而正式开启与 DeepMind 团队的合作。上图的右侧展示了星际争霸 2 的正常视角,而左侧展示了提供给深度学习的视角,这样可以方便深度学习统更好的获取信息。相信在不远的将来,深度学习将被更多的应用到开放环境中。深度学习系统将在更多竞技运动中战胜人类的同时,也将在更多领域将人类从重复劳动中解放出来。
12 月:DeepMind Lab 开源
为了让深度学习系统能够自己学会如何解决复杂问题,继 OpenAI 开源了 Universe 项目之后,DeepMind 于今年 12 月也开源了 DeepMind Lab。DeepMind Lab 是一个专门为人工智能研究设计的第一人称 3D 游戏平台。在这个游戏平台中,智能体(agent)需要完成类似收集水果、走迷宫、穿越有悬崖的通道、使用发射台在空间中移动等任务。如今 DeepMind Lab 已经成为 DeepMind 内部的一个主要研究平台。
2017 年
相信深度学习将在以下几个方面将实现质的突破:
深度学习将从大学实验室和顶级 IT 公司走向大众,更多的公司将通过深度学习技术解决实际的问题。随着深度学习工具的开源以及技术的成熟,越来越多的个人和企业将享受到深度学习技术所带来的好处。
深度学习将覆盖更多的领域。从 2012 年深度学习突破了传统图像识别技术的瓶颈并取得了 ILSCRC(ImageNet Large Scale Visual Recognition Challenge)比赛的冠军开始,深度学习能被应用到了越来越多的领域。在 2017 年中,笔者相信深度学习将继续突破传统技术的瓶颈,并将被应用到基因技术、个性化医疗、自媒体、公共安全、艺术、金融等各个领域中。
随着 AlphaGo 战胜李世石,深度学习系统在封闭环境下又取得了突破性进展。在 2017 年,相信深度学习系统将更多的尝试在开放环境下的应用。无论是无人车还是智能星际争霸2玩家或者是 DeepMind Lab 都将是深度学习在开放环境下的尝试
二、应用
深度学习的直接应用
语音识别
图像识别
2.1深度学习推动计算机图像识别率大幅提升
2.2计算机视觉已经成为最吸引投资的人工智能技术方向
2.3深度学习推动多个领域图像识别广泛应用
搜索引擎
邮件自动回复
机器翻译
杀毒软件
深度学习在视频行业的应用
视频的智能化处理
深度学习开创新的商业模式:视频电商与新型广告植入
深度学习在医疗行业的应用
医疗行业数据处理要求远远超出人类个体信息处理能力
从IBM沃森系统在医疗行业的应用来看,深度学习主要体现在互动、发现和决策三个方面
深度学习在金融行业的应用
金融大数据特性决定了引入人工智能技术的必然性
人工智能投资基金表现优异
机器学习和自然语言处理是目前人工智能投资基金常用技术
国内以同花顺、资配易为代表的人工智能投资机器人已经初露锋芒
深度学习显著提升互联网金融风控和征信的能力
深度学习在无人驾驶以及无人机中的应用
深度学习在无人驾驶技术上的应用
深度学习在无人机上的应用
重点公司分析
东方网力:携手商汤科技,打造深度学习专用芯片体系
同花顺:“人工智能+互联网金融”核聚变
科大讯飞:打造中国“最强大脑
”
北部湾旅:收购博康智能,切入“智慧安全、智慧交通”领域
浙大网新:轻装上阵,踏上人工智能新征程
思创医惠:人工智能+医疗新星升起
和而泰:智能家居入口价值日益凸显
汉邦高科:进军无人驾驶战略制高点
百度深度学习的四大直接应用本质上都是实现分类识别功能
深度学习已经应用到谷歌的各项业务中去
深度学习具备非常好的通用性:基础模块、端到端的简单模型
深度学习效果随着数据规模增加显著提升
谷歌首次引入深度学习语音识别错误率就降低30%
科大讯飞语音识别近几年错误率明显降低
ImageNet是全球最大的计算机视觉图片库
google在ImageNet图片识别准确率快速提升
国际权威测试ImageNet各公司图像识别错误率已经接近人类肉眼水平
LFW库中不少公司人脸识别错误率已经低于人眼
55%的人工智能技术类企业投资集中在计算机视觉领域
实现任意脸部遮挡以及视角下的实时检测
人脸特征识别
行人检测
车辆检测
语义驱动的互联网规模图像搜索以及排序
在实用场景中物体识别技术可提供商品搜索、危险物品检测等多种实用引擎
场景识别在上百类室内外场景图像中识别显著场景元素
基于深度学习实时降低图像压缩噪声
基于暗原色技术实现的图像去雾
风靡朋友圈的faceu应用人脸技术支持
宝宝相册自动识别整理宝宝照片
深度学习显著提升百度搜索满意度
rankbrain:谷歌的人工智能搜索引擎算法
谷歌将深度学习用于邮件自动回复
引入深度学习的百度4.0杀毒系统:慧眼引擎
人工智能提升视频生产效率
优酷边看边买
爱奇艺随视购流程