Page 202 - 信息的脉络
P. 202
·信息的脉络·
所以往往会忽略掉关键性影响信息。
语言类 AI 系统同样错误频出,令人哭笑不得。以 GPT-3 为例,作为迄今为止
最著名的 AI 系统,它能够将输入文本转化和延展为流畅且语法连续的文章。英国
《卫报》用它写出一篇完整的专栏文章,《纽约时报》还对它做出专题报道。看
起来很美,但这一切仍然离不开人工编辑的修正。
OK,OK……即便如此,深度学习所掀起的浪潮又把人工智能推进了一大步,
并且创造出价值数十亿美元的新市场,在医疗、教育、自动驾驶、图像识别等领
域获得了广泛的应用,毫无疑问这些应用并不会随着深度学习技术瓶颈的出现而
消失,它会沉淀为信息科技的基础。未来的人会在前人的基础上继续前行,依然
会创造出更好的技术,这是科技产业发展的规律。过去的技术会逐渐被新技术取代,
而人类始终是最终的受益者。
未来之路
深度学习的出现给人工智能领域看到了通用人工智能实现的希望,但是其弊
端也很明显,那就通过几乎无限制的算力和数据投入来实现好的效果,这限制了
人工智能在大部分领域的应用,因为算力成本非常高昂,而且有些领域数据获取
非常困难。如何突破当代人工智能的瓶颈?不同学者给出了不同的方案,但总体
来看可以概括为两类,一类是监督学习者,提倡通过改善数据标签质量,从而完
善监督学习。代表人物有发起“以数据为中心 AI”革命的吴恩达,提倡设计“合
成数据自带所有标签”的 NVIDIA 副总裁 Rev Lebaredian。一类是无监督学者,提
倡下一代人工智能系统将不再依赖于精心标注的数据集,代表人物是图灵奖获得
者杨立昆(Yann LeCun)。
吴恩达在接受 IEEE Spectrum 的一段专访中,讨论了人工智能领域下一个十年
的风向,表达了“是时候从大数据转向小数据、优质数据”的观点。他认为,过
去十年里,面向消费者的企业由于拥有大量用户群(有时甚至高达数十亿),因
此而获得了巨大的数据集得以开展深度学习训练,这给一些企业带来了巨大的经
济价值,但他发现这种法则不适用于其他行业。
他认为,以“数据为中心”的 AI 是为构建成功 AI 系统所需数据的系统准则。
若要构建一套建成功的人工智能系统,首先需要用代码实现算法,然后在数据集
上进行训练。过去十年里,研究人员的主要工作就是下载数据集,然后改进代码。
这种模式给深度学习网络带来了显著的改进,但其架构是一个已解决的问题。因此,
对于许多实际应用来说,现在更有效的方法是固定神经网络结构,找到改进数据
的方法。例如,像很多视觉模型都是用数百万张图像构建的,吴恩达曾经花 3.5 亿
• 186 •