言語処理100本ノックについて#
更新履歴#
2025-04-08#
言語処理100本ノック 2025 Rev 1を公開
2025-04-07#
言語処理100本ノック 2025を公開 🎉
事前学習済み言語モデルや大規模言語モデルに対応した問題に改訂しました。
【第1章】2020年版の問題01と問題02を修正し、問題00も含めて順番を入れ替えました。
【第2章】2020年版の問題13(データのマージ)を削除し、問題16(ランダムに行を並び替え)を追加しました。これに伴い、2020年版の問題12(列の抽出)の内容を調整しました。Jupyterで実行しやすくするため、出力が長くなりすぎないように設問を調整し、段階的に解答できるように問題の順番を入れ替えました。
【第3章】2020年版の第3章から変更ありません。
【第4章】2020年版の第4章(形態素解析)と第5章(係り受け解析)の内容を統合しました。Jupyter上で解析結果を確認しやすくするため、解析対象を短いテキストに変更しました。形態素解析や係り受け解析のツールの指定を削除しました。
【第5章】大規模言語モデルの利用に関する問題を新たに作成しました。
【第6章】2020年版の第7章から変更ありません。ただ、アナロジータスク(問題54)の実行に時間がかかるので、評価すべきサブセットを指定しました。
【第7章】2020年版の第6章をベースに題材をSST-2に変更しました。
【第8章】2020年版の第8章と第9章を統合し、題材をSST-2に変更しました。事前学習済み言語モデルがよく使われるようになり、ニューラルネットワークのアーキテクチャを独自に実装・学習する機会が減りましたので、コーディングの負担を軽減しました。
【第9章】BERT(および派生モデル)の利用・チューニングに関する問題を新しく作成しました。
【第10章】GPT(および派生モデル)の利用・チューニングに関する問題を新しく作成しました。
ウェブサイトをJupyter Bookで作成しました。
2020-12-25#
言語処理100本ノック 2020 Rev 2を公開 🎄
中国語版の完成 🎉
中国語への翻訳はRunzhe Zhanさん、Youmi Maさんにご協力頂きました。
日本語版におけるバグ修正
問題32における用語の修正(#28)
2020-06-08#
言語処理100本ノック 2020Rev 1を公開
英語版の完成 🎉
第5章から第10章の英訳は、清野舜さん、Benjamin Heinzerlingさん、Ana Brassardさん、Paul Reisertさんにご協力いただきました。
問題07の綴り間違いの修正(#12)
第4章において品詞タグ付け済のデータを配布(#13)
問題38の文面の修正(#14)
問題08の文面の修正(#24)
問題18の翻訳誤りの修正
その他、綴り間違いやスタイルの修正
韓国語版の公開(39番まで翻訳完了):sparkles:
韓国語への翻訳はSangwhan Moonさんにご協力頂きました。
日本語版における数多くのバグを修正 :sweat_smile:
Issuesを報告して頂いた皆様、およびPull Requestsを送って頂いた皆様に感謝申し上げます。:pray:
2020-04-06#
深層ニューラルネットワークに関する問題を追加
多言語対応
英語版の公開(39番まで翻訳完了)
旧第6章(英語テキストの処理)を英語版に移動
2015-03-12#
単語の分散表現に関する問題を追加
利用するデータを再配布可能なものに変更
より実践的な題材へ改訂
2012-04-03#
初版を公開
配布しているデータについて#
popular-names.txt: 米国社会保障局 (SSA: Social Security Administration)のウェブサイト”Beyond the Top 1000 Names”で公開されている全州のデータを加工し、TSV形式に変換したものです。
jawiki-country.json.gz: 2020年4月5日付けの日本語のWikipedia記事のダンプの中から、国家に言及していると思われる記事を抽出し、JSON形式で格納したものです。このファイルは、クリエイティブ・コモンズ 表示-継承 3.0 非移植のライセンスで配布されています。
ai.ja.zip: 日本語Wikipediaの「人工知能」に関する記事から、テキスト部分を取り出したファイルを収録しています。このファイルは、クリエイティブ・コモンズ 表示-継承 3.0 非移植のライセンスで配布されています。
言語処理100本ノックについて#
言語処理100本ノックの問題は、東京工業大学の岡崎直観により制作・保守されています。
2020年版の制作に際して、東北大学乾・鈴木研究室の清野舜さんに問題の構想と校閲、横井祥さんと高橋諒さんに問題の構想について、協力して頂きました。
2020年版は、清野舜さん、Benjamin Heinzerlingさん、Ana Brassardさん、Paul Reisertさん、岡崎直観によって英訳されました。
2020年版は、Sangwhan Moonさんによって韓国語に翻訳されました。
言語処理100本ノックは、2011-2012年ごろに岡崎直観によって初版が作成され、東北大学の乾・岡崎研究室(当時)(現在は乾・鈴木研究室)の新人研修の一つであるプログラミング基礎勉強会で使われてきました
言語処理研究を目指す学生が100問のプログラミング課題を解くという方式は、もともと名古屋大学の佐藤理史先生の研究室で行われていたものです
「100本ノック」という名前は、乾・岡崎研究室に在籍していた杉浦純さんが付けました
連絡先#
フィードバックや助言は、GitHubレポジトリのissuesやpull requestsにお寄せ頂けますと助かります。それ以外のお問い合わせについては、nlp100 at nlp.c.titech.ac.jpまでメールでご連絡ください。