第7章:词向量 (English Resource)
本章介绍词向量(词嵌入)的相关概念。编写程序,以实现下列处理。
60. 加载词向量Permalink
下载在Google News数据集(大约1,000亿个词)上预训练得到的词向量。 该文件包含300万个单词与短语的词向量表示,向量的维度为300。打印出词组”United States”的词向量(注意:”United States”以”United_States”的形式存储)。
61. 词语相似度Permalink
计算”United States”与”U.S.”之间的余弦相似度。
62. 最相似的10个词Permalink
找出与”United States”余弦相似度最高的10个词,并输出其相似度的数值。
63. 基于向量加法的词汇类比Permalink
用”Spain”的词向量减去”Madrid”的词向量,再加上”Athens”的词向量,得到一个新的向量。找出与该向量相似度最高的10个单词或词组,并输出其相似度的数值。
64. 词汇类比实验Permalink
下载词汇类比评估数据集,并按vec(第二列的词) - vec(第一列的词) + vec(第三列的词)的方式计算新的向量。求出与该向量相似度最高的单词,并将该单词及其相似度数值追加进每一行的末尾。
65. 词汇类比任务的准确率Permalink
对于第64问所得的结果,计算其语义类比(semantic analogy)与语法类比(syntactic analogy)的正确率。
66. 在WordSimilarity-353数据集上评估Permalink
从The WordSimilarity-353 Test Collection下载测试数据。计算以下两组数据之间的斯皮尔曼等级相关系数(spearman’s rank correlation coefficient):
- 通过词向量计算所得的相似度排名;
- 通过人类评估所得的相似度排名。
67. k-means聚类Permalink
提取所有与国名相关的词向量,并使用k-means算法进行聚类(k=5)。
68. Ward聚类法Permalink
提取所有与国名相关的词向量,并使用离差平方和(Ward’s method)度量距离、进行分层聚类。使用树枝状图(Dendrogram)对聚类结果进行可视化。
69. t-SNE 可视化Permalink
使用t-SNE,在向量空间上对所有与国名相关的词向量进行可视化。