第1章: 热身运动
处理字符串与文本数据,同时复习编程语言中重要的进阶话题。
第2章: UNIX 指令
体验在研究与数据分析中实用的UNIX工具。透过这一过程提升编程技能并对现有工具链的生态有所感知。
第3章: 正则表达式
使用正则表达式从Wikipedia标签中抽取多种信息与知识。
第4章: 词性(POS)标注
对《Alice’s Adventures in Wonderland》的文本使用词性(Part-Of-Speech)标注器,并获取篇章中词语的统计学信息。
第5章: 依存关系解析
通过将依存关系解析器应用于小说《Alice’s Adventures in Wonderland》,体验创建并分析依存关系树。
第6章: 机器学习
构造一个基于机器学习方法的文本分类器. 此外,学习机器学习中的评估方法。
第7章: 词向量
通过词语相似度与单词类比的计算,学习词向量的处理方式。此外,体验聚类算法与词向量的可视化。
第8章: 神经网络
学习深度学习框架的使用方法,并实现一个基于神经网络的文本分类器。
第9章: RNN 与 CNN
使用深度学习框架实现循环神经网络(Recurrent Neural Networks, RNNs)与卷积神经网络(Convolutional Neural Networks, CNNs)。
第10章: 机器翻译
利用现有的工具,构建神经机器翻译模型。