100문제로 두드려 보는 자연어처리에 대하여
업데이트 이력
2020-06-08
100문제로 두드려 보는 자연어처리 2020 Rev 1 공개
- 영문판 완성
- 제5장에서 제10장 전반에 걸쳐 키요노 슌 님, Benjamin Heinzerling님, Ana Brassard님, Paul Reisert님의 도움을 받았습니다.
- 문제07 맞춤법 교정 (#12)
- 제4장에서 품사 태그가 달린 데이터 추가 (#13)
- 문제 38개 내용 교정 (#14)
- 문제08 내용 교정 (#24)
- 문제 18번 번역 오류 수정
- 기타 맞춤법 및 스타일 수정
- 한국어판 공개 (39번 문제까지 번역 완료)
- 한국어 번역은 문상환님의 도움을 받았습니다.
- 일본어판에 버그 다수 수정
Issues를 통해서 문제점을 보고해주신 여러분 및 Pull Requests를 보내주신 여러분께 감사드립니다.
2020-04-06
- 100문제로 두드려 보는 자연어처리 2020 공개
- 딥 뉴럴 네트워크 관련 문제 추가
- 다국어 지원
- 영문판 공개(39번까지 번역 완료)
- 구 제6장(영어 텍스트 처리) 영문판으로 이동
2015-03-12
- 언어처리 100개 노크 2015 공개
- 단어 분산 표현 관련 문제 추가
- 연습용 데이터를 재배포 가능한 데이터셋으로 변경
- 보다 실용적인 소재로 개선
2012-04-03
- 초판 공개
배포하고 있는 데이터에 대하여
- popular-names.txt: 미국 사회보장국(SSA: Social Security Administration) 웹사이트 Beyond the Top 1000 Names“에 공개되어 있는 모든 주 데이터)를 가공하여 TSV 형식으로 변환하였습니다.
- enwiki-country.json.gz: 2020년 4월 5일자 영어 Wikipedia 기사의 덤프 안에서, 국가를 언급하고 있다고 생각되는 기사를 추출해, JSON 형식으로 변환하였습니다. 이 파일은, Creative Commons Attribution-ShareAlike 3.0 Unported 라이선스로 배포되고 있습니다.
- neko.txt: 아오조라 분코에 공개되어 있는 나쓰메소세키의 장편소설 ‘나는 고양이다’를 텍스트파일로 변환하였습니다.
-
alice.zip: 소설 “Alice’s Adventures in Wonderland” (Lewis Carroll 저) 원문은 Project Gutenberg에서 받았습니다. 배포 라이센스는
11.txt
의 Project Gutenberg License를 참고하시기 바랍니다. - ai.en.zip: 위키피디아 글 “Artificial intelligence“는 위키피디아 영문판에서 발췌하였습니다. 해당 파일은 Creative Commons Attribution-ShareAlike 3.0 Unported 라이센스에 의거하여 배포하고 있습니다.
언어처리 100개 노크에 대해
- 언어 처리 100개 노크는, 동경공업대학의 오카자키 나오아키에 의해 제작·보수되고 있습니다.
- 2020년판의 제작에 즈음하여, 토호쿠대학 이누이·스즈키 연구실의 키요노 슌님이 문제의 구상과 교열, 요코이 쇼님과 타카하시 료님이 문제의 구상을 협력해 주셨습니다.
- 2020년판은 키요노 슌님, Benjamin Heinzerling님, Ana Brassard님, Paul Reisert님, 원저자 오카자키 나오아키이 번역하였습니다.
- 2020년판은 Sangwhan Moon님이 한국어로 번역하였습니다.
- 언어 처리 100개의 노크는, 2011-2012년경에 오카자키 나오아키가 초판을 작성하여, 토호쿠대학의 이누이·오카자키 연구실 (당시)(현재는이누이·스즈키 연구실) 신입생 연수 과정 중 하나인 프로그래밍 기초 스터디 모임에서 사용되어 왔습니다.
- 언어 처리 연구를 목표로 하는 학생이 100개의 프로그래밍 과제를 푸는 방식은, 원래 나고야대학의 사토 사토시 선생님의 연구실의 프로그램에서 비롯되었습니다.
- “100개의 노크”라고 하는 이름은, 이누이·오카자키 연구실에 재적하고 있던 스기우라 준님이 지었습니다.
연락처
피드백이나 조언은 GitHub 저장소의 Issues 나 Pull request 형태로 보내 주시면 감사하겠습니다. 그 외의 문의에 대해서는 ‘nlp100at
nlp.c.titech.ac.jp’으로 메일로 연락 주십시오. 한국어 관련해서는 Github 리포트에 @cynthia를 명시적으로 넣어주시면 도움이 됩니다.