入門 日本語自然言語処理

萩原 正人, Paul O'Leary McCann
2021年冬季 完成 (予定)
英語・日本語版同時発売予定
book cover

本書について

日本語テキストを処理したい全てのプログラマ・エンジニアの方へ。分かち書きなどの基本から、自然言語生成などの最新の話題までをカバー。 動かして学べるコードや、参照文献も付いています。言語学や機械学習の知識が無くても問題ありません。

日本語言語学の基礎

文字・単語・文法・エンコーディング・絵文字など、日本語テキストをコンピューター上で処理するための基礎知識を網羅

オープンソースのツール

MeCab を使った形態素解析、spaCy を使った品詞タグ付けなど、オープンソース・ツールを使って日本語テキストを解析する方法を解説

辞書とデータセット

日本語処理によく使われる辞書・コーパス・その他のデータセットを概観

単語埋め込み

単語・文埋め込みを使い、日本語のテキストを表現・可視化・検索する方法を解説

テキスト生成と変換

日本語テキストの生成システム、かな漢字変換システムをニューラルネットワークを使って実装

自然言語理解

日本語テキストに対する感情分析や固有表現抽出システムを転移学習を使って実装

こんな方へオススメ

本書は、ソフトウェア開発者、AI エンジニア・研究者、言語に携わる方など、コンピューター上で日本語テキストを扱う全ての人向けに書かれています。

数学は不要

本書を理解するために数学は必要ありません。理論や実装などに深入りするのではなく、ツールを使って望みのタスクを実行することに主眼を置いています。

日本語スキルも不要

本書の英語版を読み進めるにあたって、日本語を理解する必要はありません。例文には丁寧な注釈をつけました。もちろん、日本語を理解できる方も、言語処理について体系的に学ぶことができます。

基礎的な Python のスキル

必要な前提知識は、基礎的な Python スキルのみです。丁寧なコードサンプルを通じて、目的のタスクのアプローチへの仕方や解決方法を解説します。

目次

image
  • 第1章: 日本語言語学の基礎
    • 1.1 日本語の基礎
    • 1.2 正書法: 文字とテキストの構成
    • 1.3 形態論: 単語の構成と解析
    • 1.4 統語論: 文の構造と解析
    • 1.5 技術コラム: テキストを表現する
  • 第2章: 形態素解析とオープンソース・ツール
    • 2.1 トークナイザと形態素解析器: 概要と基本的な使い方
    • 2.2 高度な分かち書き
    • 2.3 係り受け解析器
  • 第3章: データセット
    • 3.1 概要
    • 3.2 辞書
    • 3.3 汎用コーパス
    • 3.4 目的特化型コーパス
  • 第4章: 単語と文の埋め込み
    • 4.1 単語の埋め込み
    • 4.2 文埋め込み
    • 4.3 マルチリンガル埋め込み
  • 第5章: トランスフォーマーによる自然言語生成と変換
    • 5.1 トランスフォーマー入門
    • 5.2 自然言語生成
    • 5.3 かな漢字変換と翻字
  • 第6章: 転移学習による自然言語理解
    • 6.1 転移学習入門
    • 6.2 感情分析・テキスト分類
    • 6.3 固有表現抽出

著者について

image

萩原 正人 Google、MSR、バイドゥ、楽天技術研究所NY、Duolingo など、日中米の多くのテック大手等において、研究者・エンジニアとして自然言語処理・機械学習の研究開発に携わる。 2019年にフリーランスとして独立し、教育応用・アジア言語処理を専門とする AI 研究所 Octanove Labs を設立。機械翻訳や教育応用の分野にて、世界トップレベルの研究機関等と共に数多くのプロジェクトに携わる。 自然言語処理・機械学習に関する著書・訳書多数。

image

Paul O'Leary McCann コンサルタント、spaCy開発チームのコアメンバー。2011年修士号取得後来日し、2019年に「Cotonoha」屋号で独立する。 現在Pythonでもっとも利用されている日本語の形態解析器など多くのライブラリを開発している。 自然言語処理の他、都内最大級のゲーム開発者交流会Tokyo Indiesの主催に携わる。

更新をメールで受け取る

本書の完成・更新などのニュースをメールでお届けします。

購読

* 必須