言語処理100本ノック 2020 (Rev 2)

第1章: 準備運動

テキストや文字列を扱う題材に取り組みながら，プログラミング言語のやや高度なトピックを復習します．

研究やデータ分析において便利なUNIXツールを体験します．これらの再実装を通じて，プログラミング能力を高めつつ，既存のツールのエコシステムを体感します．

Wikipediaのページのマークアップ記述に正規表現を適用することで，様々な情報・知識を取り出します．

夏目漱石の小説『吾輩は猫である』に形態素解析器を適用し，小説中の単語の統計を求めます．

『吾輩は猫である』に係り受け解析器を適用し，係り受け木の操作と統語的な分析を体験します．

文書分類器を機械学習で構築します．さらに，機械学習手法の評価方法を学びます．

単語の類似度計算や単語アナロジーなどを通して，単語ベクトルの取り扱いを修得します．さらに，クラスタリングやベクトルの可視化を体験します．

深層学習フレームワークの使い方を学び，ニューラルネットワークに基づくカテゴリ分類を実装します．

深層学習フレームワークを用い，再帰型ニューラルネットワーク（RNN）や畳み込みニューラルネットワーク（CNN）を実装します．

既存のツールを活用し，ニューラル機械翻訳モデルを構築します．