第4章: 言語解析#

問題30から問題35までは、以下の文章text(太宰治の『走れメロス』の冒頭部分)に対して、言語解析を実施せよ。問題36から問題39までは、国家を説明した文書群(日本語版ウィキペディア記事から抽出したテキスト群)をコーパスとして、言語解析を実施せよ。

text = """
メロスは激怒した。
必ず、かの邪智暴虐の王を除かなければならぬと決意した。
メロスには政治がわからぬ。
メロスは、村の牧人である。
笛を吹き、羊と遊んで暮して来た。
けれども邪悪に対しては、人一倍に敏感であった。
"""

30. 動詞#

文章textに含まれる動詞をすべて表示せよ。

31. 動詞の原型#

文章textに含まれる動詞と、その原型をすべて表示せよ。

32. 「AのB」#

文章textにおいて、2つの名詞が「の」で連結されている名詞句をすべて抽出せよ。

33. 係り受け解析#

文章textに係り受け解析を適用し、係り元と係り先のトークン(形態素や文節などの単位)をタブ区切り形式ですべて抽出せよ。

34. 主述の関係#

文章textにおいて、「メロス」が主語であるときの述語を抽出せよ。

35. 係り受け木#

「メロスは激怒した。」の係り受け木を可視化せよ。

36. 単語の出現頻度#

問題36から39までは、Wikipediaの記事を以下のフォーマットで書き出したファイルjawiki-country.json.gzをコーパスと見なし、統計的な分析を行う。

  • 1行に1記事の情報がJSON形式で格納される

  • 各行には記事名が”title”キーに、記事本文が”text”キーの辞書オブジェクトに格納され、そのオブジェクトがJSON形式で書き出される

  • ファイル全体はgzipで圧縮される

まず、第3章の処理内容を参考に、Wikipedia記事からマークアップを除去し、各記事のテキストを抽出せよ。そして、コーパスにおける単語(形態素)の出現頻度を求め、出現頻度の高い20語とその出現頻度を表示せよ。

37. 名詞の出現頻度#

コーパスにおける名詞の出現頻度を求め、出現頻度の高い20語とその出現頻度を表示せよ。

38. TF・IDF#

日本に関する記事における名詞のTF・IDFスコアを求め、TF・IDFスコア上位20語とそのTF, IDF, TF・IDFを表示せよ。

39. Zipfの法則#

コーパスにおける単語の出現頻度順位を横軸、その出現頻度を縦軸として、両対数グラフをプロットせよ。