LLM
大規模言語モデル / Large Language Model
大量のテキストコーパスで学習し、言語を予測・生成するニューラルネットワーク
概要
大規模言語モデル(LLM)は、一般にTransformerアーキテクチャに基づき、書籍・Webテキスト・コードなど大規模かつ多様なコーパスで学習されたニューラルネットワーク。学習過程で次に来る単語を予測するタスクを繰り返すことで、語彙・文法・文脈的な意味関係だけでなく、常識的な知識や推論パターンまで内部表現として獲得する。パラメータ数と学習データ量を増やすほど性能が滑らかに向上するスケーリング則が知られており、この性質が近年のLLM開発競争の背景にある。GPT・Claude・Gemini・Llamaなど代表的なモデルは、単一の汎用モデルとして文章生成・要約・翻訳・コード生成・対話など幅広いタスクをこなせる点が特徴で、タスクごとに専用モデルを訓練する従来のアプローチを大きく置き換えつつある。
背景
LLMはNLP向け深層学習の発展から生まれた。モデルパラメータ数と学習データ量を同時にスケールさせることで、few-shot推論や指示追従といった創発的能力を引き出す。
歴史
2018年: GPTとBERTが大規模事前学習を導入。2020年: GPT-3が1750億パラメータでfew-shot学習を実証。2022年: ChatGPTが指示チューニング済みLLMを普及。2023-2024年: オープンウェイトモデル(Llama, Mistral)とマルチモーダルLLMが増加。
アーキテクチャ
多くのLLMはデコーダのみのTransformerスタックを使用。自己注意層、位置エンコーディング、フィードフォワード層で構成され、次トークン予測で学習する。
ワークフロー
大規模テキストコーパスでの事前学習 → 指示チューニング → アライメント(RLHF/DPO) → 推論APIまたはローカルランタイムでのデプロイ。
コード例
基本的な補完リクエスト
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-4",
messages=[{"role": "user", "content": "Explain LLMs in one sentence."}],
)
print(response.choices[0].message.content)利点
- タスク固有の学習なしに多くのNLPタスクへ汎化できる
- few-shot・zero-shotで高い性能を発揮
- ツール・ファインチューニング・エージェントなどエコシステムの急速な拡大
欠点
- 学習・推論の計算コストとエネルギーコストが高い
- ハルシネーション(事実誤認)を起こしやすい
- コーパス全体に比べコンテキストウィンドウが限られる
比較
- Transformer — LLMは一般にTransformerアーキテクチャの上に構築される
- RAG — RAGは外部知識検索によりLLMを拡張する
- NLP — LLMは現在のNLPタスクの多くを単一モデルで解ける汎用アプローチとして主流になっている
- GPU — LLMの大規模な事前学習は、多数のGPUを用いた分散学習によって支えられている
関連用語
よくある質問
LLMとチャットボットの違いは?
LLMは基盤となるモデルそのもの。チャットボットはLLMの上にプロンプト設計・メモリ・UIを追加したアプリケーション。
LLMの規模はどれくらい?
モデルファミリーによって数十億から数兆パラメータまで幅がある。
参考文献
- Research PaperAttention Is All You Need
- BlogOpenAI GPT-4 Technical Report