第4章: 言語解析#
問題30から問題35までは、以下の文章text(太宰治の『走れメロス』の冒頭部分)に対して、言語解析を実施せよ。問題36から問題39までは、国家を説明した文書群(日本語版ウィキペディア記事から抽出したテキスト群)をコーパスとして、言語解析を実施せよ。
text = """
メロスは激怒した。
必ず、かの邪智暴虐の王を除かなければならぬと決意した。
メロスには政治がわからぬ。
メロスは、村の牧人である。
笛を吹き、羊と遊んで暮して来た。
けれども邪悪に対しては、人一倍に敏感であった。
"""
30. 動詞#
文章textに含まれる動詞をすべて表示せよ。
31. 動詞の原型#
文章textに含まれる動詞と、その原型をすべて表示せよ。
32. 「AのB」#
文章textにおいて、2つの名詞が「の」で連結されている名詞句をすべて抽出せよ。
33. 係り受け解析#
文章textに係り受け解析を適用し、係り元と係り先のトークン(形態素や文節などの単位)をタブ区切り形式ですべて抽出せよ。
34. 主述の関係#
文章textにおいて、「メロス」が主語であるときの述語を抽出せよ。
35. 係り受け木#
「メロスは激怒した。」の係り受け木を可視化せよ。
36. 単語の出現頻度#
問題36から39までは、Wikipediaの記事を以下のフォーマットで書き出したファイルjawiki-country.json.gzをコーパスと見なし、統計的な分析を行う。
1行に1記事の情報がJSON形式で格納される
各行には記事名が”title”キーに、記事本文が”text”キーの辞書オブジェクトに格納され、そのオブジェクトがJSON形式で書き出される
ファイル全体はgzipで圧縮される
まず、第3章の処理内容を参考に、Wikipedia記事からマークアップを除去し、各記事のテキストを抽出せよ。そして、コーパスにおける単語(形態素)の出現頻度を求め、出現頻度の高い20語とその出現頻度を表示せよ。
37. 名詞の出現頻度#
コーパスにおける名詞の出現頻度を求め、出現頻度の高い20語とその出現頻度を表示せよ。
38. TF・IDF#
日本に関する記事における名詞のTF・IDFスコアを求め、TF・IDFスコア上位20語とそのTF, IDF, TF・IDFを表示せよ。
39. Zipfの法則#
コーパスにおける単語の出現頻度順位を横軸、その出現頻度を縦軸として、両対数グラフをプロットせよ。