AIのコンテキストウィンドウとは何か。なぜ長文書の作業を制約するのか
AIのコンテキストウィンドウとは、モデルが一度に読み込んで把握できる情報量の上限で、トークンで測られます。あなたのプロンプト、提供した文書、これまでの会話、そしてモデル自身の回答が含まれます。おおよその目安として、1トークンは英語で単語の約4分の3にあたります。資料がウィンドウを超えると、モデルはそのすべてを一度に見ることができなくなります。ですから実務で重要なのは、ウィンドウがどれだけ大きいかではなく、ツールが適切な箇所を取得して引用し、どのウィンドウよりはるかに大きな文書でも回答が根拠に基づき続けるかどうかです。

トークンとは何か。コンテキストウィンドウはどれくらいの大きさか?
モデルは単語を直接読むのではなく、短い文章のかたまりであるトークンを読みます。英語では1トークンが単語の約4分の3にあたるため、1,000トークンはおよそ750語です。コンテキストウィンドウはトークンで測られ、数千から、最大級のモデルでは数十万、あるいは数百万へと急速に拡大してきました。
数字が大きいほど良さそうに見えますが、誤解を招くこともあります。ウィンドウは一つの回答のために、質問、取得された文書、これまでの会話、そして書かれつつある回答を同時に保持しなければなりません。あなたの文書に使える実際の余地は、常に表向きの数字より小さいのです。
なぜコンテキストウィンドウがあなたの文書にとって重要なのか?
専門的な業務では、長い契約書、分量のある報告書、ファイル群そのものを扱い、これらは容易にどのコンテキストウィンドウも超えてしまいます。超えた場合、モデルは資料のすべてを一度に考慮できないため、何かを除外せざるをえません。ツールが単純に切り詰めると、あなたの質問に答える肝心の箇所を落とすことがあり、しかもそれは知らされません。
だからこそウィンドウは、些末な技術論ではなく現実の制約なのです。一見完結した回答が、実は最も重要なページを視野に入れずに生成されていることもあります。重要度の高い業務では、回答が生成されたときに該当する出典が確かにコンテキストにあったと確かめる手段が必要です。
コンテキストウィンドウより大きな文書を、ツールはどう扱うのか?
標準的な解決策は取得(リトリーバル)で、しばしばRAGと呼ばれます。すべての文書をウィンドウに詰め込むのではなく、ツールが質問ごとに関連する箇所をファイルから検索し、その箇所だけをコンテキストに置きます。これにより、ライブラリはウィンドウの外に存在し、関連する部分だけが質問ごとに引き入れられるため、モデルが利用できる実質的な知識はウィンドウをはるかに上回ります。
取得は回答を検証可能にもします。モデルは具体的に取得された箇所をもとに作業するため、よく作られたツールはそれぞれを引用でき、あなたは出典を開いて、回答が切り詰められた誤った資料ではなく正しい資料に基づいたことを確認できます。
Tatsulokは大規模なライブラリをどう扱うのか?
Tatsulokは質問ごとに、ライブラリ全体から関連する箇所を取得します。そのため、コンテキストウィンドウに収まりきらないほど多くの資料についても質問できます。すべての回答は出典の該当箇所まで引用され、ハイライト表示されたプレビューと元の文書へのリンクが付くので、回答がどの資料を使ったかを検証できます。
トークンを管理したり、ウィンドウの上限を気にしたりする必要は一切ありません。あなたの文書は既定で非公開に保たれ、通信時も保管時も暗号化され、いかなるAIモデルの学習にも使われません。ウィンドウは、あなたではなくツールが管理すべき問題になります。
FAQ
- コンテキストウィンドウには何語くらい入りますか?
- モデルによりますが、目安として1,000トークンは約750語です。したがって128,000トークンのウィンドウはおよそ96,000語にあたり、これがプロンプト、文書、会話、回答で共有されるため、文書に使える余地は常に総量より小さくなります。
- コンテキストウィンドウを超えるとどうなりますか?
- モデルは資料のすべてを一度に見られなくなります。ツールによっては、古い情報や関連性の低い内容が除外または切り詰められ、あなたの質問に答える箇所を気づかぬうちに取り除いてしまうことがあります。取得(リトリーバル)方式のツールは、質問ごとに関連箇所だけを引き入れることでこれを避けます。
- コンテキストウィンドウは大きいほど良いのですか?
- 必ずしもそうではありません。ウィンドウが大きいと役立ちますが、すべてが同じ余地を取り合うことに変わりはなく、非常に大きなコンテキストは遅く、費用がかさみ、モデルがうまく使いこなしにくくなることもあります。大規模なライブラリでは、生のウィンドウサイズより、適切な箇所を取得することの方が重要です。
- AIはコンテキストウィンドウより大きな文書について答えられますか?
- はい、取得を使えば可能です。文書はウィンドウの外に存在し、ツールは質問ごとに関連する箇所だけを引き入れます。これにより、どの単一のコンテキストウィンドウよりはるかに大きなライブラリ全体について、回答を根拠に基づかせたまま質問できます。
- コンテキストウィンドウが大きいほど費用が増えたり遅くなったりしますか?
- 一般的にはそうです。処理するトークンが増えるほど計算量も増えるため、大きなウィンドウを満たすと費用と応答時間の両方が増えることがあります。これも、すべてをコンテキストに置くより関連箇所だけを取得する方が良い場合が多い理由の一つです。