第1章: 热身运动

处理字符串与文本数据,同时复习编程语言中重要的进阶话题。

第2章: UNIX 指令

体验在研究与数据分析中实用的UNIX工具。透过这一过程提升编程技能并对现有工具链的生态有所感知。

第3章: 正则表达式

使用正则表达式从Wikipedia标签中抽取多种信息与知识。

第4章: 词性(POS)标注

对《Alice’s Adventures in Wonderland》的文本使用词性(Part-Of-Speech)标注器,并获取篇章中词语的统计学信息。

第5章: 依存关系解析

通过将依存关系解析器应用于小说《Alice’s Adventures in Wonderland》,体验创建并分析依存关系树。

第6章: 机器学习

构造一个基于机器学习方法的文本分类器. 此外,学习机器学习中的评估方法。

第7章: 词向量

通过词语相似度与单词类比的计算,学习词向量的处理方式。此外,体验聚类算法与词向量的可视化。

第8章: 神经网络

学习深度学习框架的使用方法,并实现一个基于神经网络的文本分类器。

第9章: RNN 与 CNN

使用深度学习框架实现循环神经网络(Recurrent Neural Networks, RNNs)与卷积神经网络(Convolutional Neural Networks, CNNs)。

第10章: 机器翻译

利用现有的工具,构建神经机器翻译模型。