1. 入力テクストの長さ制限
- Transformer は「固定長の入力」仕様。
- 「入力できる長さ」の意味は,「一度に処理できるトークン数の上限」。
この上限を,「コンテクスト長 (context length)」とか「シーケンス長 (sequence length)」と謂う。
例:
- GPT-3:2048 トークン
- GPT-4:8192 または 32,768 トークン(モデルによる)
2. コンテクスト長を超えるテクストの場合
- コンテクスト長で,機械的に区切る。──文法構造にこだわらない。
- 学習は,区切られたテクストごとに行われる。
- 「トークンの位置 (前後関係)」は,この区切られたテクストの話になる。
──「区分されたテクストを再びつないで元のテクストにして,これを学習する」ではない。
補足情報:
|
区切りの単位は,ランダム・シャッフルや windowing のような工夫を加えることもある。
基本は「自己完結的な範囲での処理」として扱われる。
|
|