第7章:词向量 (English Resource)

本章介绍词向量(词嵌入)的相关概念。编写程序,以实现下列处理。

60. 加载词向量

下载在Google News数据集(大约1,000亿个词)上预训练得到的词向量。 该文件包含300万个单词与短语的词向量表示,向量的维度为300。打印出词组”United States”的词向量(注意:”United States”以”United_States”的形式存储)。

61. 词语相似度

计算”United States”与”U.S.”之间的余弦相似度。

62. 最相似的10个词

找出与”United States”余弦相似度最高的10个词,并输出其相似度的数值。

63. 基于向量加法的词汇类比

用”Spain”的词向量减去”Madrid”的词向量,再加上”Athens”的词向量,得到一个新的向量。找出与该向量相似度最高的10个单词或词组,并输出其相似度的数值。

64. 词汇类比实验

下载词汇类比评估数据集,并按vec(第二列的词) - vec(第一列的词) + vec(第三列的词)的方式计算新的向量。求出与该向量相似度最高的单词,并将该单词及其相似度数值追加进每一行的末尾。

65. 词汇类比任务的准确率

对于第64问所得的结果,计算其语义类比(semantic analogy)与语法类比(syntactic analogy)的正确率。

66. 在WordSimilarity-353数据集上评估

The WordSimilarity-353 Test Collection下载测试数据。计算以下两组数据之间的斯皮尔曼等级相关系数(spearman’s rank correlation coefficient):

  • 通过词向量计算所得的相似度排名;
  • 通过人类评估所得的相似度排名。

67. k-means聚类

提取所有与国名相关的词向量,并使用k-means算法进行聚类(k=5)。

68. Ward聚类法

提取所有与国名相关的词向量,并使用离差平方和(Ward’s method)度量距离、进行分层聚类。使用树枝状图(Dendrogram)对聚类结果进行可视化。

69. t-SNE 可视化

使用t-SNE,在向量空间上对所有与国名相关的词向量进行可视化。