Up 「学習・成長」を「自然選択」と見る思想 作成: 2025-05-21
更新: 2025-05-23


  • アルゴリズムの自由
    Self-Attention の入力から出力までのアルゴリズムは,式で書くと:
      softmax( ( X(S) W_Q )・( X(S) W_K )^T ) ( X(S) W_V )
    そして式だけを見れば,Q, K, V から "Query, Key, Value" の意味は浮かんで来ない:
    • Q と K は対称であり,異なる意味が見えない。
    • V が Q, K とは意味が違うことを示すものは,この式である。
      しかしこの式をどう見れば, V の読みが "Value" になるのか?  
     
    そこで,「アルゴリズムの自由」の考えに傾く:
    • ある程度まとまった感があって計算量が多いものなら,何でもよい。
       ━━違いは,トークンベクトルの成長の効率。
    • この類のものとして上の計算アルゴリズムを見るとき,Q, K, V はこれに対し特別な読みを求めるものではなくなる。


  • 「自然選択」の思想
    「アルゴリズムの自由」の思いは,どのような存在論に立っていることになるか?
    それは, 「自然選択」であるように見える。

    「自然選択」の物理は,
      「多数で多様な物質が多様に泳動する。
       その泳動には,自然選択が働く。
       そしてこれは,泳動の<強いシンクロ>の形成を導く。」

    イメージは,
      「原始地球の海を泳動する物質たち。
       その泳動は何でもありに見えるが,実際は自然選択が働く。
       (海は空間ではなく,多種多様な物質の固まりだから)」

    環境は,物質の泳動を制約する。
    「環境は物質を制約する」は,物質に主体を措く言い方をすると,「物質は環境に適応する」。

    環境に制約されて泳動する物質は,集団の中で互いに引き合うような見掛けを
    現し,ついには「組織」を現すようになる。
    イメージは,
      「原始地球の海に出現する多様なタンパク質と,
       多様なタンパク質の整合的な絡み合い (組織)」

    即ち,Transformer は,
    • トークンベクトルは,語彙へと成長していく「物質」
    • 厖大な学習材テクストは,トークンベクトルに適応を強いる「環境」
    • 重み行列は,トークンベクトルに強いる「環境適応」
    • 計算アルゴリズムは,トークンベクトルの「泳動」


  • Transformer の「大数」
    「原始地球の海の自然選択」の要点は,「多数」──多数多様の物質の多数多様の泳動──である。
    そしてその「多数」は, 「大数」である。

    Transformer では,「大数」が,
    1. 次元D,トークン数,計算アルゴリズム,複数レイア
    2. 厖大な学習材テクスト
    で実現されている

    前者の「大数」については,生成AI 技術者は,ひっくるめて「パラメータ数」と言い,「いまは兆単位の数だ」と言ったりしている。

    その「パラメータ数」は,
    • 次元数D
    • 登録しているトークンの数
    • 重み行列の数,重み行列の要素数 (これは D×D)
    • レイア数
    • その他
    の内訳で見ると,どうなるか?

    また,「厖大な学習材テクスト」は,トークン数で言うと,どのくらいなのか?

    これを ChatGPT に質問してみた。
    一瞬で,つぎの答が返ってきた。
    (そして ChatGPt はこれらを記憶から引き出している。
     いやはやすご過ぎて,表現することばが無い ^^; )


    ── ChatGPT ────────────────────
    以下の2つについて、大まかな推量・見積もりをします:
    1. 「パラメータ数 何兆」の内訳(各構成要素の規模)
    2. 「学習テクスト全体のトークン数」の見積もり

    対象とするのは、例えば **GPT-3(1750億パラメータ)やGPT-4(推定で1兆パラメータ前後)**と同等のモデルです。

    1. 🔬 パラメータ数の内訳(大雑把な推定)

    以下は典型的な大規模Transformerモデルの構成要素です。
    項目 説明 パラメータ数の見積もり

    語彙埋め込み(Embedding) トークン語彙サイズ × 埋め込み次元D 50,000 × 12,288 ≒ 6億
    Attention系(Q, K, V, O) 各層ごとにQ, K, V, Oの4つの行列(D×D) 4 × D² × 層数 ≒ 4 × (12,288)² × 96 ≒ 58億
    FFN系(FeedForward) 各層の2層MLP(D → 4D → D) 2 × D × 4D × 層数 ≒ 2 × 12,288 × 49,152 × 96 ≒ 1150億
    LayerNorm・他 比較的少ない(数百万) 無視できる程度
    出力プロジェクション 埋め込みを語彙に戻す:D × VocabSize 12,288 × 50,000 ≒ 6億

    ✳️ 合計イメージ(GPT-4相当モデル:D = 12,288, 層数 = 96)
    セクション 推定パラメータ数

    Embedding層 約 6億
    Attention関係 約 60億
    FeedForward層 約 1100億
    出力層 約 6億
    その他 微少(LayerNormなど)
    合計 約 1200〜1300億程度(GPT-3.5)
    GPT-4の1兆はこれより数倍大きい構成

      ⚠️ GPT-4 の正確な構造は非公開ですが、「Mixture of
      <(MoE)」や「分岐型FeedForward」などで実質的なモデルサイズが1兆を超えると考えられています。


    2. 📚 学習テキスト全体のトークン数(見積もり)
    ✅ GPT-3の場合(OpenAI論文からの公開情報)
    • 使用テキスト:Books, Wikipedia, WebTextなどを合わせて 3000億トークン(= 300B tokens)
    • 英語ベースで 1トークン ≒ 0.75語、または 1トークン ≒ 4バイト程度

    ✅ GPT-4の場合(非公開だが推定)
    • GPT-4では 1兆〜10兆トークンのスケールが想定されています。
    • 例えばGeminiやClaudeなどの競合も含め、現在のLMM(大規模マルチモーダルモデル)は、10兆トークン級で訓練されたと見られます。

    🧮 補足:パラメータ数 vs. トークン数の比率感覚
    • GPT-3:1750億パラメータで 3000億トークン学習(≒パラメータ数の2倍弱)
    • GPT-4:1兆パラメータで 1兆〜10兆トークン学習(≒パラメータ数と同等〜10倍)

    つまり、「1つのパラメータを学習するために、10トークン程度の例文が必要」という目安が使われることもあります。

    🧠 まとめ図解(テキストベース)
    🧠 Transformerのパラメータ分布(D = 12,288, L = 96 の場合)

    Embedding 約 6億 (語彙数 × D)
    Attention 約 60億 (4D² × L)
    FeedForward 約1100億 (2×D×4D×L)
    出力層 約 6億 (D × 語彙数)

    合計 約1200〜1300億パラメータ



    📚 学習テキスト:
      GPT-3 → 約 3000億トークン
      GPT-4 → 推定 1兆〜10兆トークン