Re Reference AI

モデル

LLM

大規模言語モデル / Large Language Model

大量のテキストコーパスで学習し、言語を予測・生成するニューラルネットワーク

NLPTransformer深層学習

概要

大規模言語モデル(LLM)は、一般にTransformerアーキテクチャに基づき、書籍・Webテキスト・コードなど大規模かつ多様なコーパスで学習されたニューラルネットワーク。学習過程で次に来る単語を予測するタスクを繰り返すことで、語彙・文法・文脈的な意味関係だけでなく、常識的な知識や推論パターンまで内部表現として獲得する。パラメータ数と学習データ量を増やすほど性能が滑らかに向上するスケーリング則が知られており、この性質が近年のLLM開発競争の背景にある。GPT・Claude・Gemini・Llamaなど代表的なモデルは、単一の汎用モデルとして文章生成・要約・翻訳・コード生成・対話など幅広いタスクをこなせる点が特徴で、タスクごとに専用モデルを訓練する従来のアプローチを大きく置き換えつつある。

背景

LLMはNLP向け深層学習の発展から生まれた。モデルパラメータ数と学習データ量を同時にスケールさせることで、few-shot推論や指示追従といった創発的能力を引き出す。

歴史

2018年: GPTとBERTが大規模事前学習を導入。2020年: GPT-3が1750億パラメータでfew-shot学習を実証。2022年: ChatGPTが指示チューニング済みLLMを普及。2023-2024年: オープンウェイトモデル(Llama, Mistral)とマルチモーダルLLMが増加。

アーキテクチャ

多くのLLMはデコーダのみのTransformerスタックを使用。自己注意層、位置エンコーディング、フィードフォワード層で構成され、次トークン予測で学習する。

ワークフロー

大規模テキストコーパスでの事前学習 → 指示チューニング → アライメント(RLHF/DPO) → 推論APIまたはローカルランタイムでのデプロイ。

コード例

基本的な補完リクエスト

from openai import OpenAI

client = OpenAI()
response = client.chat.completions.create(
    model="gpt-4",
    messages=[{"role": "user", "content": "Explain LLMs in one sentence."}],
)
print(response.choices[0].message.content)

利点

  • タスク固有の学習なしに多くのNLPタスクへ汎化できる
  • few-shot・zero-shotで高い性能を発揮
  • ツール・ファインチューニング・エージェントなどエコシステムの急速な拡大

欠点

  • 学習・推論の計算コストとエネルギーコストが高い
  • ハルシネーション(事実誤認)を起こしやすい
  • コーパス全体に比べコンテキストウィンドウが限られる

比較

  • TransformerLLMは一般にTransformerアーキテクチャの上に構築される
  • RAGRAGは外部知識検索によりLLMを拡張する
  • NLPLLMは現在のNLPタスクの多くを単一モデルで解ける汎用アプローチとして主流になっている
  • GPULLMの大規模な事前学習は、多数のGPUを用いた分散学習によって支えられている

関連用語

TransformerRAGファインチューニングニューラルネットワークコーパスNLPGPU

よくある質問

LLMとチャットボットの違いは?

LLMは基盤となるモデルそのもの。チャットボットはLLMの上にプロンプト設計・メモリ・UIを追加したアプリケーション。

LLMの規模はどれくらい?

モデルファミリーによって数十億から数兆パラメータまで幅がある。

参考文献