Page 198 - 信息的脉络
P. 198

·信息的脉络·
                 的包括 Jurgen Schmidhuber 及其合作者在 1992 和 1997 年提出的神经历史压缩器
                 (Neural History Compressor,NHC)和长短期记忆网络(Long Short-Term Memory
                 networks,LSTM),其中包含门控的 LSTM 受到了关注。
                     同在 1997 年,M.Schuster 和 K.Paliwal 提出了具有深度结构的双向循环神经
                 网络(Bidirectional RNN,BRNN),并对其进行了语音识别试验。双向和门控构

                 架的出现提升了 RNN 的学习表现,在一些综述性研究中,被认为是 RNN 具有代
                 表性的研究成果。
                     长短期记忆网络通过引入“门结构”(Gate)和一个明确定义的“记忆单元”

                 (Memory Cell)来尝试克服梯度消失或者梯度爆炸的问题。它允许向单元状态中
                 移除或添加信息,通过门限结构对信息进行管理,把短期记忆的内容也保留下来。
                 后来,进一步还发展出了“门控循环单元”(Gated Recurrent Units,GRU)等其
                 他长短期记忆网络的变体形式。
                     21 世纪后,随着深度学习理论的出现和数值计算能力的提升,拥有更高复杂

                 度的 RNN 开始在自然语言处理问题中得到关注。2005 年,Alex Graves 等将双向
                 LSTM 应用于语音识别,并得到了优于隐马尔可夫模型(Hidden Markov Model,
                 HMM)的表现。

                     2010 年,Tomas Mikolov 及其合作者提出了基于 RNN 的语言模型。2013 到
                 2015 年,Y.Benjo、D.Bahdanau 等提出了编码器 - 解码器、自注意力层等一系列
                 RNN 算法,并将其应用于机器翻译问题。为语言模型设计的 RNN 算法在随后的
                 研究中启发了包括 Transformer、XLNet、ELMo、BERT 等复杂构件。
                     今天,循环神经网络已经广泛应用于语音分析、文字分析、时间序列分析。

                 如果主要解决的问题就是数据之间存在前后依赖关系、有序列关系,现在一般首
                 选长短期记忆网络,如果预测对象同时取决于过去和未来,可以选择双向结构,
                 如双向长短期记忆网络。



                     超大规模算力模型 GPT-3
                     GPT 是 Generative Pre-training Transformer 的简称,是由 Alec Radford 编写的
                 语言模型,2018 年由埃隆·马斯克的人工智能研究实验室 OpenAI 发布。它采用
                 了生成式语言模型(两个神经网络通过竞争相互完善),通过对不同的书面材料

                 集与长篇连载文本的预训练,能够获取世界知识并处理长程依赖关系。2020 年 5 月,
                 OpenAI 发布了 GPT-3,GPT-3 在许多 NLP 数据集上都取得了很强的性能,包括翻
                 译、问题回答和 cloze 任务以及一些需要即时推理或领域适应的任务。
                     GPT-3 的模型体量非常强大,它使用的最大数据集在处理前容量达到了



                                                  • 182 •
   193   194   195   196   197   198   199   200   201   202   203