Page 194 - 信息的脉络
P. 194
·信息的脉络·
ConvNets 和 ImageNet
ConvNets 的发明者杨立昆(Yann LeCun)在其职业生涯中一直致力神经网络
的研究,从 20 世纪 80 年代开始,经历了神经网络研究的一个又一个“寒冬”和
“春天”。
20 世纪 80—90 年代在贝尔实验室工作期间,杨立昆转向对自动识别手写数
字和字母的研究。他将从神经认知机中获得的想法与反向传播算法结合起来,创
建了“LeNet”,即最早的 ConvNets 之一。LeNet 凭借手写数字识别功能在商业上
获得了成功,从 20 世纪 90 年代到 21 世纪初,LeNet 被美国邮政局用于自动识别
邮政编码,并被银行业用于自动读取支票上的手写数字。然而,LeNet 及其后继者
ConvNets 在应用于更复杂的视觉任务时表现不佳。到 20 世纪 90 年代中期,神经
网络开始在人工智能研究群体中失宠,也因此失去了在该领域的主导地位,但杨
立昆仍然坚信并继续致力研究 ConvNets,并对其进行逐步改进。正如辛顿后来所
说的,“他像是孤身一人举着火炬穿过了那个黑暗的时代”
杨立昆、辛顿和神经网络的其他拥护者认为,只要具备足够多的训练数据,
改进的、更大规模的 ConvNets 和其他深度网络就能够征服计算机视觉。他们在 21
世纪初期一直执着于在这个处于边缘的分支领域内开展研究工作。直到 2012 年,
ConvNets 在一个名为 ImageNet 的图像识别数据库上赢得了计算机视觉竞赛,由
ConvNets 研究人员传递的这只火炬突然照亮了计算机视觉研究的世界。
ImageNet 是普林斯顿大学年轻的计算机视觉教授李飞飞构建的一个图像数据
库,其中每个名词都与大量包含该名词实例的图像相关联。2010 年,ImageNet 项
目举办了首届“ImageNet 大规模视觉识别竞赛”,前两届得分最高的都是使用支
持向量机算法的程序,但是改进缓慢。2012 年,采用了 AlexNet 算法(ConvNets
的扩展版本,以其主要开发者 Alex Krizhevsky 的名字命名),获奖程序 top-5 准
确率达到了惊人的 85%。AlexNet 包含 8 层,约有 6000 万个权重,这些权重通过
在上百万张训练图像上进行反向传播来学习。
AlexNet 的成功向计算机视觉和泛人工智能研究群体传递了一个信号,突然间
人们开始意识到 ConvNets 的潜在能力了。是什么使得 ConvNets 在 20 世纪 90 年
代还似乎处于困境,但却突然间主宰了 ImageNet 竞赛和过去近 5 年计算机视觉领
域的大部分研究?事实证明,深度学习在近年来的成功要归功于互联网时代极易
获得的海量数据和并行计算机硬件的快速处理能力。这些因素加上训练方法的改
进,使得数百层的网络在短短几天内就能完成在数百万张图像上的训练。
ImageNet 竞赛仍在继续。在 2017 年举办的竞赛中,获胜程序的 top-5 准确率
为 98%。正如一位记者所评论的那样,“现在,许多人认为 ImageNet 图像识别任
• 178 •