第7章：词向量 (English Resource)

本章介绍词向量（词嵌入）的相关概念。编写程序，以实现下列处理。

60. 加载词向量Permalink

下载在Google News数据集（大约1,000亿个词）上预训练得到的词向量。该文件包含300万个单词与短语的词向量表示，向量的维度为300。打印出词组”United States”的词向量（注意：”United States”以”United_States”的形式存储）。

计算”United States”与”U.S.”之间的余弦相似度。

找出与”United States”余弦相似度最高的10个词，并输出其相似度的数值。

用”Spain”的词向量减去”Madrid”的词向量，再加上”Athens”的词向量，得到一个新的向量。找出与该向量相似度最高的10个单词或词组，并输出其相似度的数值。

下载词汇类比评估数据集，并按vec(第二列的词) - vec(第一列的词) + vec(第三列的词)的方式计算新的向量。求出与该向量相似度最高的单词，并将该单词及其相似度数值追加进每一行的末尾。

对于第64问所得的结果，计算其语义类比（semantic analogy）与语法类比（syntactic analogy）的正确率。

从The WordSimilarity-353 Test Collection下载测试数据。计算以下两组数据之间的斯皮尔曼等级相关系数(spearman’s rank correlation coefficient)：

提取所有与国名相关的词向量，并使用k-means算法进行聚类（k=5）。

提取所有与国名相关的词向量，并使用离差平方和（Ward’s method）度量距离、进行分层聚类。使用树枝状图（Dendrogram）对聚类结果进行可视化。

使用t-SNE，在向量空间上对所有与国名相关的词向量进行可视化。