当前位置:主页 > 数据驱动 >

一文概述2017年深度学习NLP重大进展与趋势

 发布时间:2018-03-28 来源:
近年来,深度学习(DL)架构和算法在图像识别、语音处理等领域实现了很大的进展。而深度学习在自然语言处理方面的表现最初并没有那么起眼,不过现在我们可以看到深度学习对 NLP 的贡献,在很多常见的 NLP 任务中取得了顶尖的结果,如命名实体识别(NER)、词性标注(POS tagging)或情感分析,在这些任务中神经网络模型优于传统方法。而机器翻译的进步或许是最显著的。

本文,我将概述 2017 年深度学习技术在 NLP 领域带来的进步。可能会有遗漏,毕竟涵盖所有论文、框架和工具难度太大。我想和大家分享这一年我最喜欢的一些研究。我认为 2017 年是 NLP 领域的重要一年。深度学习在 NLP 中的应用变得广泛,在很多分支取得了傲人的成绩,所有这些都说明这个趋势不会停止。

从训练 word2vec 到使用预训练模型

可以说,词嵌入是用于自然语言处理(NLP)的最广为人知的深度学习(DL)技术。它遵循由 Harris(1954)提出的分布式假设,根据该假设,具有相似含义的词通常出现在相似语境中。如想详细了解词嵌入,推荐阅读 Gabriel Mordecki 的文章:《Word embeddings: how to transform text into numbers》(https://monkeylearn.com/blog/word-embeddings-transform-text-numbers/)。

 

一文概述2017年深度学习NLP重大进展与趋势

 

词的分布式向量示例(图像来源:https://arxiv.org/abs/1708.02709)。

word2vec(Mikolov et al., 2013)和 GloVe(Pennington et al., 2014)是该领域的先驱性算法,尽管它们无法被称为 DL(word2vec 中的神经网络是浅层的,GloVe 实现了一种计数方法),但借助它们进行训练的模型通常用作深度学习 NLP 方法的输入数据。它的效果很好,因此越来越多的人开始使用词嵌入。

最初,对于一个需要词嵌入的 NLP 问题,我们倾向于利用与领域相关的大型语料库训练自己的模型。当然,这不是推进词嵌入广泛使用的较佳方式,因此人们开始慢慢转向预训练模型。通过在维基百科、推特、谷歌新闻、网页抓取内容等上面进行训练,这些模型可以轻松地把词嵌入整合到 DL 算法中。

今年证实,预训练词嵌入模型仍然是 NLP 中的核心问题。比如来自 Facebook 人工智能实验室(FAIR)的 fastText 发布了 294 种语言的预训练向量,对社区做出了重大贡献。除了大量的语言,fastText 这一举措的有用之处在于其使用字符 n 元作为特征。这使得 fastText 避免了 OOV(out of vocabulary)问题,因为即使非常罕见的词(比如特定领域的术语)也很可能与常见词共享字符 n 元。在这个意义上,fastText 要比 word2vec 和 GloVe 表现更好,并且它在小数据集上的表现也要优于二者。

然而,尽管我们看到一些进展,这一领域中仍有很多事情要做。比如,NLP 框架 spaCy 通过整合词嵌入和 DL 模型以本地方式完成诸如命名实体识别(NER)和依存句法分析(Dependency Parsing)等任务,允许用户更新模型或使用他们自己的模型。

我认为这就是趋势。未来将会有针对特定领域(比如生物、文学、经济等)、易于在 NLP 框架中使用的预训练模型。就我们的使用情况来说,锦上添花的事情就是以尽可能简单的方式调整它们。与此同时,现在开始出现适应词嵌入的方法。

使用通用嵌入适应特定用例

也许使用预训练词嵌入的主要缺点是训练数据和真实数据之间存在词分布式差距。假设你有一个生物学论文、食谱或者经济学研究论文的语料库。由于你很可能没有一个足够大的语料库训练好的嵌入,所以通用词嵌入可能帮助你提升结果。但是如果你能使通用嵌入适应你的特定用例呢?

在 NLP 中此类适应通常被称为跨域或域适应技术,并且非常接近迁移学习。Yang et al. 今年提出了一个非常有趣的工作,在给定源域嵌入的情况下,他们展示了一个正则化的 skip-gram 模型来学习目标域的词嵌入。

其核心思想简单却有效。想象一下如果我们知道源域中词 w 的词嵌入为 w_sws。为了计算 w_twt(目标域)的嵌入,研究者将两个域之间的特定迁移量添加到 w_sws。基本上,如果词频繁出现在两个域中,这意味着其语义并不依赖于域。这种情况下,迁移量很大,在两个域中产生的嵌入可能相似。但是如果特定域的词在一个域中出现的频率比另一个域频繁得多,则迁移量小。

该词嵌入研究主题还未被广泛探索,我认为在不久的将来它将获得更多关注。

情感分析不可思议的「副作用」

青霉素、X 光甚至邮件都是意料之外的发现。今年,Radford et al. 发现训练模型中的单个神经元具有高度可预测的情感值,并探索了字节级的循环语言模型属性,旨在预测亚马逊评论文本中的下一个字符。是的,这一单个「情感神经元」能够相当较精确地区分消极和积极的评论。

 

一文概述2017年深度学习NLP重大进展与趋势

 

评论极性 vs 神经元值(图像来源:https://blog.openai.com/unsupervised-sentiment-neuron/)。

注意到这个行为之后,Radford 等人决定在 Stanford Sentiment Treebank 上测试该模型,测试结果显示其较精确度高达 91.8%,而之前的最优结果是 90.2%。这意味着通过显著减少实例的使用,他们以无监督方式训练的模型至少在一个特定但经过广泛研究的数据集上取得了当前较佳的情感分析结果。

运转中的情感神经元

由于模型在字符级别上起作用,因此神经元为文本中的每个字符改变状态,其工作方式看起来相当惊人。

 

一文概述2017年深度学习NLP重大进展与趋势

 

情感神经元的行为(图像来源:https://blog.openai.com/unsupervised-sentiment-neuron/)。

比如,在词 best 之后,神经元值呈现为强积极;但是词 horrendous 出现时,神经元值的状态完全相反。

生成极性(polarity)有偏文本

当然,已训练模型仍然是有效的生成模型,因此它能用于生成类似 Amazon 评论的文本。但我发现你可以简单地重写情感神经元的值,从而选择生成文本的情感级性(积极或消极)。

 

一文概述2017年深度学习NLP重大进展与趋势

 

生成文本示例(图像来源:https://blog.openai.com/unsupervised-sentiment-neuron/)。

文章评论

互联网 自媒体专栏 智能硬件 资本动态 移动互联网 游戏 数据驱动 滚动新闻 O2O 访问移动版
Copyright © 2002-2013 搞数码网 版权所有  电话:0510-898978789 邮箱:89898989@qq.com 地址:北京市新会金水岸国商大厦B-6-B