大規模言語モデル (LLM: Large Language Model)2

🤖 大規模言語モデル(LLM)とは

大規模言語モデル (LLM: Large Language Model) は、Transformer(トランスフォーマー) というアーキテクチャを基盤とし、膨大なテキストデータを用いてディープラーニングで学習された、自然言語処理に特化したAIモデルです。Transformer architecture diagramの画像

Shutterstock

詳しく見る

大量のパラメータ(数十億から数兆個)を持つことで、文脈の理解、文章の生成、翻訳、要約、質疑応答など、高い精度でさまざまな言語タスクを実行できます。LLMは、テキスト、画像、音声などを生成できるAI技術である生成AI一種として位置づけられます。


種類と代表的なモデル

LLMは、そのアーキテクチャ(構造)によって大きく3つの種類に分類されます。

1. エンコーダ型 (Encoder-only)

  • 特徴: 入力された文章の文脈を理解することに特化しています。双方向から文章を読み込むため、文脈を正確に把握する能力に優れます。
  • 適したタスク: テキスト分類、固有表現抽出、センチメント分析など、入力文の理解が中心となるタスク。
  • 代表的なモデル: BERT (Google) など。

2. デコーダ型 (Decoder-only)

  • 特徴: 入力された情報に基づいて、次に来る単語を予測しながらテキストを生成することに特化しています。
  • 適したタスク: 文章生成、チャットボット(対話)、翻訳など、新しいテキストの生成が中心となるタスク。
  • 代表的なモデル: GPT シリーズ (OpenAI)、LaMDA (Google)、Llama シリーズ (Meta)、Claude シリーズ (Anthropic) など。

3. エンコーダ・デコーダ型 (Encoder-Decoder)

  • 特徴: 入力文をエンコード(文脈理解)した後、デコード(生成)して回答を出力する仕組みです。
  • 適したタスク: 機械翻訳や文章要約など、入力と出力が対になるタスク。

主なLLMの例

現在、多くの企業や研究機関から多様なLLMが開発され、進化を続けています。

モデル名開発元特徴
GPT-4o/GPT-4OpenAI高性能なマルチモーダル対応 (テキスト・画像・音声)、ChatGPTの基盤モデル。
GeminiGoogleマルチモーダルモデルで、ProやFlashなどのモデルがあり、長大なコンテキスト長に対応。
Llama 3Metaオープンソース(公開)されており、研究・開発コミュニティでの利用が活発。
Claude 3Anthropic大量のコンテキストを一度に読み込む能力に優れ、日本語性能も高い。

仕組みの概要

LLMは、基本的に以下のステップで動作します。

  1. トークン化: 入力されたテキスト(プロンプト)を、単語や文字、記号などの**最小単位(トークン)**に分割します。
  2. ベクトル化: 分割された各トークンを、コンピュータが計算できる数値の並び(ベクトル)に変換します。このベクトルが単語の意味や文脈を表します。
  3. 文脈理解・エンコード: Transformerアーキテクチャ内のアテンションメカニズムなどを利用し、トークン間の関連性や文全体の意味を深く理解(エンコード)します。
  4. デコード・予測: 学習したパターンに基づき、次に来る可能性が最も高いトークンを確率的に予測して順次出力し、文章を生成します。

大規模言語モデルが、どのように構築され、どのような進化を遂げてきたかについて、こちらの動画で詳しく解説されています。

【知っておきたい】LLMとは?生成AIとどういう関係?(図解で簡単にわかりやすく解説)

コメント

タイトルとURLをコピーしました