轻松理解skip-gram模型_新闻_

引言

在许多自然语言处理任务中，许多单词表达是由他们的tf-idf分数决定的。即使这些分数告诉我们一个单词在一个文本中的相对重要性，但是他们并没有告诉我们单词的语义。Word2vec是一类神经网络模型——在给定无标签的语料库的情况下，为语料库中的单词产生一个能表达语义的向量。这些向量通常是有用的：

通过词向量来计算两个单词的语义相似性

对某些监督型NLP任务如文本分类，语义分析构造特征

接下来我将描述Word2vec其中一个模型，叫做skip-gram模型

skip-gram模型

前向传播

接下来我们来看下skip-gram神经网络模型，skip-gram的神经网络模型是从前馈神经网络模型改进而来，说白了就是在前馈神经网络模型的基础上，通过一些技巧使得模型更有效。我们先上图，看一波skip-gram的神经网络模型：

说白了，这个值就是第C个输出单词的第j个结点的概率大小。通过BP（反向传播）算法及随机梯度下降来学习权重

前面我讲解了skip-gram模型的输入向量及输出的概率表达，以及我们学习的目标。接下来我们详细讲解下学习权重的过程。第一步就是定义损失函数，这个损失函数就是输出单词组的条件概率，一般都是取对数，如下所示：

从上面的更新规则，我们可以发现，每次更新都需要对整个词汇表求和，因此对于很大的语料库来说，这个计算复杂度是很高的。于是在实际应用中，Google的Mikolov等人提出了分层softmax及负采样可以使得计算复杂度降低很多。