- アルゴリズムの自由
Self-Attention の入力から出力までのアルゴリズムは,式で書くと:
softmax( ( X(S) W_Q )・( X(S) W_K )^T ) ( X(S) W_V )
そして式だけを見れば,Q, K, V から "Query, Key, Value" の意味は浮かんで来ない:
- Q と K は対称であり,異なる意味が見えない。
- V が Q, K とは意味が違うことを示すものは,この式である。
しかしこの式をどう見れば, V の読みが "Value" になるのか?
そこで,「アルゴリズムの自由」の考えに傾く:
- ある程度まとまった感があって計算量が多いものなら,何でもよい。
━━違いは,トークンベクトルの成長の効率。
- この類のものとして上の計算アルゴリズムを見るとき,Q, K, V はこれに対し特別な読みを求めるものではなくなる。
- 「自然選択」の思想
「アルゴリズムの自由」の思いは,どのような存在論に立っていることになるか?
それは, 「自然選択」であるように見える。
「自然選択」の物理は,
「多数で多様な物質が多様に泳動する。
その泳動には,自然選択が働く。
そしてこれは,泳動の<強いシンクロ>の形成を導く。」
イメージは,
「原始地球の海を泳動する物質たち。
その泳動は何でもありに見えるが,実際は自然選択が働く。
(海は空間ではなく,多種多様な物質の固まりだから)」
環境は,物質の泳動を制約する。
「環境は物質を制約する」は,物質に主体を措く言い方をすると,「物質は環境に適応する」。
環境に制約されて泳動する物質は,集団の中で互いに引き合うような見掛けを 現し,ついには「組織」を現すようになる。
イメージは,
「原始地球の海に出現する多様なタンパク質と,
多様なタンパク質の整合的な絡み合い (組織)」
即ち,Transformer は,
- トークンベクトルは,語彙へと成長していく「物質」
- 厖大な学習材テクストは,トークンベクトルに適応を強いる「環境」
- 重み行列は,トークンベクトルに強いる「環境適応」
- 計算アルゴリズムは,トークンベクトルの「泳動」
- Transformer の「大数」
「原始地球の海の自然選択」の要点は,「多数」──多数多様の物質の多数多様の泳動──である。
そしてその「多数」は, 「大数」である。
Transformer では,「大数」が,
- 次元D,トークン数,計算アルゴリズム,複数レイア
- 厖大な学習材テクスト
で実現されている
前者の「大数」については,生成AI 技術者は,ひっくるめて「パラメータ数」と言い,「いまは兆単位の数だ」と言ったりしている。
その「パラメータ数」は,
- 次元数D
- 登録しているトークンの数
- 重み行列の数,重み行列の要素数 (これは D×D)
- レイア数
- その他
の内訳で見ると,どうなるか?
また,「厖大な学習材テクスト」は,トークン数で言うと,どのくらいなのか?
これを ChatGPT に質問してみた。
一瞬で,つぎの答が返ってきた。
(そして ChatGPt はこれらを記憶から引き出している。
いやはやすご過ぎて,表現することばが無い ^^; )
── ChatGPT ────────────────────
以下の2つについて、大まかな推量・見積もりをします:
- 「パラメータ数 何兆」の内訳(各構成要素の規模)
- 「学習テクスト全体のトークン数」の見積もり
対象とするのは、例えば **GPT-3(1750億パラメータ)やGPT-4(推定で1兆パラメータ前後)**と同等のモデルです。
1. 🔬 パラメータ数の内訳(大雑把な推定)
以下は典型的な大規模Transformerモデルの構成要素です。
項目 |
説明 |
パラメータ数の見積もり |
|
語彙埋め込み(Embedding) |
トークン語彙サイズ × 埋め込み次元D |
50,000 × 12,288 ≒ 6億 |
Attention系(Q, K, V, O) |
各層ごとにQ, K, V, Oの4つの行列(D×D) |
4 × D² × 層数 ≒ 4 × (12,288)² × 96 ≒ 58億 |
FFN系(FeedForward) |
各層の2層MLP(D → 4D → D) |
2 × D × 4D × 層数 ≒ 2 × 12,288 × 49,152 × 96 ≒ 1150億 |
LayerNorm・他 |
比較的少ない(数百万) |
無視できる程度 |
出力プロジェクション |
埋め込みを語彙に戻す:D × VocabSize |
12,288 × 50,000 ≒ 6億 |
✳️ 合計イメージ(GPT-4相当モデル:D = 12,288, 層数 = 96)
セクション |
推定パラメータ数 |
|
Embedding層 |
約 6億 |
Attention関係 |
約 60億 |
FeedForward層 |
約 1100億 |
出力層 |
約 6億 |
その他 |
微少(LayerNormなど) |
合計 |
約 1200〜1300億程度(GPT-3.5)
GPT-4の1兆はこれより数倍大きい構成 |
⚠️ GPT-4 の正確な構造は非公開ですが、「Mixture of <(MoE)」や「分岐型FeedForward」などで実質的なモデルサイズが1兆を超えると考えられています。
2. 📚 学習テキスト全体のトークン数(見積もり)
✅ GPT-3の場合(OpenAI論文からの公開情報)
- 使用テキスト:Books, Wikipedia, WebTextなどを合わせて 3000億トークン(= 300B tokens)
- 英語ベースで 1トークン ≒ 0.75語、または 1トークン ≒ 4バイト程度
✅ GPT-4の場合(非公開だが推定)
- GPT-4では 1兆〜10兆トークンのスケールが想定されています。
- 例えばGeminiやClaudeなどの競合も含め、現在のLMM(大規模マルチモーダルモデル)は、10兆トークン級で訓練されたと見られます。
🧮 補足:パラメータ数 vs. トークン数の比率感覚
- GPT-3:1750億パラメータで 3000億トークン学習(≒パラメータ数の2倍弱)
- GPT-4:1兆パラメータで 1兆〜10兆トークン学習(≒パラメータ数と同等〜10倍)
つまり、「1つのパラメータを学習するために、10トークン程度の例文が必要」という目安が使われることもあります。
🧠 まとめ図解(テキストベース)
🧠 Transformerのパラメータ分布(D = 12,288, L = 96 の場合)
|
Embedding |
約 6億 |
(語彙数 × D) |
Attention |
約 60億 |
(4D² × L) |
FeedForward |
約1100億 |
(2×D×4D×L) |
出力層 |
約 6億 |
(D × 語彙数) |
|
合計 |
約1200〜1300億パラメータ |
|
📚 学習テキスト:
GPT-3 → 約 3000億トークン
GPT-4 → 推定 1兆〜10兆トークン
|