技術

NLP

Natural Language Processing / 自然言語処理

コンピュータに人間の言語を理解・生成・分析させるための技術分野

言語処理人工知能

概要

NLP(自然言語処理)は、人間が日常的に使う自然言語をコンピュータに処理・理解・生成させるための技術分野。構文解析、意味理解、機械翻訳、質問応答、感情分析、文章生成など幅広いタスクを含む。1950年代のルールベース手法に始まり、統計的手法、そして2010年代以降のニューラルネットワークベースの手法へと発展してきた。近年ではTransformerアーキテクチャに基づくLLMが多くのNLPタスクを単一モデルで解けるようになり、タスクごとに専用パイプラインを構築する従来のアプローチを大きく変えつつある。

背景

人間同士のコミュニケーションは曖昧性・文脈依存性・多義性に富み、機械が正確に扱うのは困難な課題だった。言語学とコンピュータサイエンスの知見を組み合わせることで、この曖昧な自然言語を計算可能な形で扱う研究分野としてNLPが発展した。

歴史

1950年代: 機械翻訳の初期研究(ルールベース)。1980-1990年代: 統計的自然言語処理が台頭。2013年: word2vecなど単語の分散表現(埋め込み)が普及。2018年: BERTなど事前学習済みTransformerモデルがNLPの精度を大幅に向上。2022年以降: ChatGPTなどのLLMが単一モデルで多様なNLPタスクをこなせるようになる。

アーキテクチャ

特定の1アーキテクチャに限定されない、扱うタスクに応じて多様な手法を用いる分野。伝統的にはトークン化・形態素解析・構文解析・意味解析といった段階的なパイプラインで構成されたが、近年はTransformerベースのエンドツーエンドモデルに置き換わりつつある。

ワークフロー

テキストの前処理(トークン化・正規化) → 特徴抽出または埋め込み表現の獲得 → タスク固有のモデル(分類・生成・翻訳等)による処理 → 後処理・評価。

コード例

spaCyによるトークン化と品詞タグ付け

import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp("Natural language processing is fascinating.")
for token in doc:
    print(token.text, token.pos_)

利点

大量のテキストデータから知見や構造を自動抽出できる
検索・翻訳・要約・対話など幅広い応用分野を持つ
LLMの登場によりタスク固有の学習なしで多くの問題を解けるようになった

欠点

言語の曖昧性・皮肉・文化的文脈の理解は依然として難しい
低資源言語ではデータ不足により精度が下がりやすい
バイアスや差別的表現をモデルが学習・再生産するリスクがある

比較

LLM — LLMは現在のNLPタスクの多くを単一モデルで解ける汎用アプローチとして主流になっている

よくある質問

NLPとLLMの違いは？

NLPは自然言語をコンピュータで扱う技術分野全体を指す。LLMはその分野で使われる代表的なモデルの一種。

参考文献

Official WebsiteACL Anthology

Re Reference AI

NLP

概要

背景

歴史

アーキテクチャ

ワークフロー

コード例

利点

欠点

比較

関連用語

よくある質問

参考文献