第3章: 正規表現

第3章: 正規表現#

Wikipediaの記事を以下のフォーマットで書き出したファイルjawiki-country.json.gzがある。

以下の処理を行うプログラムを作成せよ。

Wikipedia記事のJSONファイルを読み込み、「イギリス」に関する記事本文を表示せよ。問題21-29では、ここで抽出した記事本文に対して実行せよ。

記事中でカテゴリ名を宣言している行を抽出せよ。

記事のカテゴリ名を（行単位ではなく名前で）抽出せよ。

記事中に含まれるセクション名とそのレベル（例えば”== セクション名 ==”なら1）を表示せよ。

記事から参照されているメディアファイルをすべて抜き出せ。

記事中に含まれる「基礎情報」テンプレートのフィールド名と値を抽出し、辞書オブジェクトとして格納せよ。

25の処理時に、テンプレートの値からMediaWikiの強調マークアップ（弱い強調、強調、強い強調のすべて）を除去してテキストに変換せよ（参考: マークアップ早見表）。

26の処理に加えて、テンプレートの値からMediaWikiの内部リンクマークアップを除去し、テキストに変換せよ（参考: マークアップ早見表）。

27の処理に加えて、テンプレートの値からMediaWikiマークアップを可能な限り除去し、国の基本情報を整形せよ。

テンプレートの内容を利用し、国旗画像のURLを取得せよ。（ヒント: MediaWiki APIのimageinfoを呼び出して、ファイル参照をURLに変換すればよい）