a16z:大規模モデルの展開は記憶喪失に直結、「継続学習」はこの悪循環を打破できるか?

著者: Malika Aubakirova、Matt Bornstein

翻訳: 深潮 TechFlow

深潮ガイド: 大規模言語モデルは訓練後に「凍結」され、展開後はコンテキストウィンドウやRAGなどの外部補助によって動作を維持するしかなく、本質的には『メメント』の記憶喪失症患者のように——検索はできるが、新しいことを本当に学習できない。a16zの二人のパートナーは、「継続学習」という最先端の研究分野を体系的に整理し、コンテキスト、モジュール、重みの更新という三つの経路から、この技術的なトラックを解剖し、AIの能力の天井を再定義し得る可能性を示している。

クリストファー・ノーランの『メメント』の中で、主人公のレナード・シェルビーは壊れた現在に生きている。脳の損傷により順行性健忘症にかかり、新しい記憶を形成できなくなる。数分ごとに彼の世界はリセットされ、「今この瞬間」に閉じ込められ、さっき起こったことを忘れ、次に何が起こるかもわからない。生き延びるために、彼は体に文字を刻み、ポラロイドを撮り、これらの外部ツールを使って脳ができない記憶機能を代替している。

大規模言語モデルもまた、似たような永遠の現在に生きている。訓練が終わると、膨大な知識はパラメータに凍結され、モデルは新しい記憶を形成できず、新経験に基づいてパラメータを更新できない。これを補うために、私たちは一連の足場を設置した:チャット履歴は短期メモとして機能し、検索システムは外部ノートブック、システムプロンプトは体の刺青のような役割を果たす。しかし、モデル自体は、これらの新情報を本当に内面化したことは一度もない。

ますます多くの研究者は、これだけでは不十分だと考えている。コンテキスト学習(ICL)が解決できる問題は、答え(または答えの断片)がすでに世界のどこかに存在している場合に限られる。しかし、まったく新しい数学的証明のような問題や、対抗的シナリオ(セキュリティ攻防)や、言語化できない隠れた知識に対しては、十分な理由がある:モデルは展開後に、新しい知識や経験を直接パラメータに書き込む方法を必要としている。

コンテキスト学習は一時的なものである。真の学習には圧縮が必要だ。私たちがモデルに継続的な圧縮を許す前に、彼らはおそらく『メメント』の永遠の現在に閉じ込められている。逆に言えば、もしモデルが自分の記憶構造を学習し、外部ツールに頼るのではなく、自己完結的に学習できるようになれば、新たなスケーリングの次元を解き放つことができるかもしれない。

この研究分野は「継続学習(continual learning)」と呼ばれる。これは新しい概念ではなく(McCloskeyとCohenの1989年の論文を参照)、しかし私たちはこれをAI分野で最も重要な研究の一つと考えている。過去数年のモデル能力の爆発的な向上により、「既知」と「知ることができる」間のギャップがますます顕著になっている。本稿の目的は、この分野のトップ研究者から学んだことを共有し、継続学習のさまざまな経路を明らかにし、このトピックのスタートアップエコシステム内での発展を促進することにある。

注:この論文の完成は、優秀な研究者、博士課程の学生、起業家たちとの深い交流と彼らの知見の共有に大きく依存している。彼らは、継続学習の理論から展開後の実践まで、多くの洞察を惜しみなく提供してくれた。彼らの時間とアイデアに感謝したい。

まずはコンテキストから

パラメータレベルの学習(モデルの重みを更新する学習)を擁護する前に、認めるべき事実がある:コンテキスト学習は確かに有効であり、今後も勝ち続ける可能性が高い。

Transformerの本質は、シーケンスに基づく次のトークン予測器である。正しいシーケンスを与えれば、驚くほど豊かな挙動を示し、重みを触る必要はほとんどない。これが、コンテキスト管理、プロンプトエンジニアリング、指示微調整、少数ショット学習といった手法が非常に強力である理由だ。知性は静的なパラメータに封じ込められ、その能力はウィンドウ内の内容に激しく依存して変化する。

Cursorの最近の深い記事は、自己プログラミングエージェントのスケーリングに関する例として非常に良い:モデルの重みは固定されているが、システムを動かすのはコンテキストの綿密な編成——何を入力し、いつ要約し、数時間の自主運用中にどのように一貫性を保つか。

OpenClawもまた良い例だ。これは特殊なモデル権限のためではなく(基本的に誰でも使える)、コンテキストとツールを非常に効率的に変換し、作業状態に落とし込む点で成功した。何をしているかを追跡し、中間生成物を構造化し、いつプロンプトを再投入し、以前の作業を持続的に記憶する。OpenClawは、エージェントの「外殻設計」を一つの学問分野に引き上げた。

提示エンジニアリングが最初に登場したとき、多くの研究者は「ただのハック」に過ぎないと懐疑的だった。それはTransformerの原始的な産物であり、再訓練を必要とせず、モデルの進歩とともに自動的に進化する。モデルが強くなるほど、プロンプトも強化される。「粗末だがネイティブ」なインターフェースは、底層システムと直接結びついているため、しばしば勝利を収める。これまでのLLMの進化はまさにその通りだ。

状態空間モデル:コンテキストのステロイド版

主流のワークフローが原始的なLLM呼び出しからエージェントループに移行するにつれ、コンテキスト学習モデルにかかるプレッシャーは増大している。かつては、コンテキストウィンドウが完全に埋まるケースは稀だった。これは、LLMに長い離散的タスクの連続を完遂させる場合に起こり、アプリケーション層でチャット履歴を直接切り詰め圧縮できるためだ。しかし、エージェントにとっては、一つのタスクが利用可能なコンテキストの大部分を占めることもある。エージェントのループの各ステップは、前の反復から伝達されたコンテキストに依存し、20〜100ステップ後には「切れ」てしまうことも多い:コンテキストが満杯になり、一貫性が崩れ、収束できなくなる。

そこで、主要なAI研究所は超長コンテキストウィンドウを持つモデルの開発に多大なリソースを投入している。これは自然な道筋だ。すでに有効な方法(コンテキスト学習)に基づき、推論時の計算移行の大きなトレンドとも合致している。最も一般的なアーキテクチャは、普通の注意ヘッドの間に固定メモリ層を挿入したもので、状態空間モデル(SSM)や線形注意の変種(以下、総称してSSM)と呼ばれる。SSMは長いコンテキストシナリオにおいて、根本的に優れたスケーリング曲線を提供する。

図注:SSMと従来の注意メカニズムのスケーリング比較

目標は、エージェントの連続動作のステップ数を約20から約20,000に数桁向上させつつ、従来のTransformerが持つ広範なスキルと知識を失わないことだ。成功すれば、長時間動作するエージェントにとって大きな突破口となる。これを一種の継続学習の形態とみなすこともできる:重みの更新は行わず、ほぼリセット不要の外部記憶層を導入する。

したがって、これらの非パラメトリックな方法は実在し、強力だ。継続学習の評価はここから始める必要がある。今日のコンテキストシステムは有用だが、それだけで天井に達しているのか?新たな方法は私たちをより遠くへ導くことができるのか?

コンテキストの欠落:「ファイルキャビネットの誤謬」

「AGIと事前訓練の進展は、ある意味で超調整を引き起こした……人類はAGIではない。確かに人類には多くのスキル基盤があるが、知識の大部分は欠落している。私たちは継続学習に依存している。もし私が超天才的な15歳の少年を作ったとしても、彼は何も知らない。優秀な学生であり、学びに飢えている。プログラマーや医者になることもできる。展開自体が、ある種の学習や試行錯誤のプロセスを伴う。これは一つの過程であり、完成品をそのまま投入することではない。——Ilya Sutskever」

無限の記憶容量を持つシステムを想像してみてほしい。世界最大のファイルキャビネットで、すべての事実が完璧に索引付けされ、即座に検索可能だ。何でも調べられる。学習したのか?

いいえ。圧縮を強制されたことがないからだ。

これが私たちの議論の核心だ。Ilya Sutskeverが以前提唱した見解を引用すれば、LLMは本質的に圧縮アルゴリズムだ。訓練中にインターネットをパラメータに圧縮している。圧縮は損失を伴うが、その損失こそがモデルを強力にしている。圧縮は、構造を見つけ、一般化し、コンテキストを超えた表現を構築することを強いる。すべての訓練サンプルを丸暗記するモデルよりも、底層の規則性を抽出したモデルの方が優れている。有損圧縮自体が学習なのだ。

皮肉なことに、訓練中にこのように強力なメカニズム(原始データをコンパクトで移植可能な表現に圧縮すること)を持つことが、展開後に私たちが拒否していることと同じだ。私たちは公開時に圧縮を止め、外部記憶を使って代替している。もちろん、多くのエージェントは何らかのカスタム圧縮を行っているが、苦い教訓(bitter lesson)は、モデル自体がこの圧縮を学習し、直接的に大規模に行うべきだということだ。

Yu Sunは例として数学を挙げている。フェルマーの最終定理を例にとると、350年以上誰も証明できなかったのは、正しい資料がなかったからではなく、解法が高度に新規だったからだ。既存の数学知識と最終解の間には大きな概念的距離がある。Andrew Wilesが1990年代にそれを解決したとき、彼はほぼ孤立して7年間働き、新たな技術を発明して解答に到達した。彼の証明は、楕円曲線とモジュ形式という異なる数学分野を橋渡ししたことに依存している。Ken Ribetは、もしこの橋を架けることができればフェルマーの最終定理は自動的に証明できると示したが、Wiles以前には、その橋を構築できる理論的ツールはなかった。Grigori Perelmanのポアンカレ予想の証明も同様の議論ができる。

核心的な問いは:これらの例は、LLMが何か欠落している、あるいは本当の創造的思考や新しい先験を行う能力が不足していることを証明しているのか?それとも逆に、これらの例は、すべての人類の知識は訓練と再構成のためのデータに過ぎず、WilesやPerelmanが示したことも、より大規模なモデルで実現可能なことを証明しているのか?

この問いは経験的なもので、答えは未確定だ。しかし、私たちは多くのカテゴリーの問題において、コンテキスト学習が失敗し、パラメータレベルの学習が有効である可能性を知っている。例えば:

図注:コンテキスト学習が失敗し、パラメータ学習が勝る可能性のある問題カテゴリー

さらに重要なのは、コンテキスト学習は言語で表現できるものにしか対応できないのに対し、重みは提示できない概念を符号化できる点だ。パターンの次元が高すぎる、隠されている、深層構造化されている場合、コンテキストに収まりきらない。例えば、医療画像で良性の偽影と腫瘍を区別する視覚的テクスチャや、話者の独特なリズムを定義する音声の微細な揺らぎなど、これらのパターンは正確な言葉に分解しにくい。言語はそれらを近似するだけだ。長いプロンプトでもこれらを伝えることはできず、こうした知識はパラメータの中にしか存在しない。潜在空間に生きており、文字では表現できない。

これが、「ロボットが記憶している」機能(例:ChatGPTのメモリ)がユーザーに違和感を与える理由の一つかもしれない。ユーザーが本当に欲しいのは「記憶」ではなく、「能力」だ。すでに内面化されたモデルは新しい場面に適応できるが、単に履歴を記憶しているだけのモデルはできない。「前回このメールに返信した内容」(逐語的な再現)と、「あなたの思考パターンを十分に理解し、必要なものを予測できる」ことの間には、検索と学習の差がある。

継続学習の入門

継続学習にはさまざまな経路がある。境界線は「記憶機能の有無」ではなく、「圧縮がどこで起きるか」にある。これらの経路はスペクトルのように分布し、無圧縮(純粋な検索、重み凍結)から完全な内部圧縮(重みのパラメータレベルの学習、モデルの賢さ向上)、そして中間の重要な領域(モジュール)まで広がる。

図注:継続学習の三つの経路——コンテキスト、モジュール、重み

コンテキスト

この側面では、より賢い検索パイプライン、エージェント外殻、プロンプトの編成を構築している。これは最も成熟したカテゴリであり、インフラは検証済み、展開の道筋も明確だ。制約は深さ——すなわちコンテキスト長。

注目すべき新しい方向性は、多エージェントアーキテクチャをコンテキストのスケーリング戦略として用いることだ。単一モデルのウィンドウが128Kトークンに制限されている場合、協調するエージェント群——それぞれが自分のコンテキストを持ち、問題の一部分に集中し、結果を通信し合う——は、全体としてほぼ無限の作業記憶に近づける。各エージェントは自分のウィンドウ内でコンテキスト学習を行い、システムが集約する。Karpathyの最近の自律研究プロジェクトやCursorのウェブブラウザ構築例はその早期例だ。これは純粋な非パラメトリック手法(重みを変更しない)が、コンテキストシステムの能力を大きく引き上げる。

モジュール

この領域では、知識モジュール(圧縮されたKVキャッシュ、アダプタ層、外部記憶ストレージ)を構築し、汎用モデルの専門化を可能にしている。8Bのモデルに適切なモジュールを追加すれば、109Bのモデルと同等の性能をターゲットタスクで発揮でき、メモリ使用量もごくわずかだ。魅力は、既存のTransformerインフラと互換性がある点だ。

重み

この側面では、真のパラメータレベルの学習を追求している。関連パラメータの疎な記憶層の更新、フィードバックからの強化学習ループ、推論時にコンテキストを重みに圧縮して訓練するテストタイムトレーニング(test-time training)などだ。これらは最も深い方法であり、最も展開が難しいが、新しい情報やスキルを完全に内面化できる。

具体的な重み更新のメカニズムにはさまざまな方向性がある。いくつか例を挙げると:

図注:重みレベル学習の研究方向の概要

重みレベルの研究は複数の並行路線を含む。正則化と重み空間の手法は最も古典的で、EWC(Kirkpatrickら、2017年)はパラメータの重要性に基づき変化を罰し、重みの補間(Kozalら、2024年)は新旧の重みを混合するが、大規模では脆弱だ。テスト時訓練はSunら(2020)が開拓し、その後TTT層、TTT-E2E、TTT-Discoverといったアーキテクチャ原語に発展した。これは、テストデータ上で勾配降下を行い、必要なときに新情報を圧縮してパラメータに反映させるアプローチだ。メタ学習は、「どうやって学習するか」を訓練することを問う。MAMLの少数ショットに優しいパラメータ初期化(Finnら、2017)や、Behrouzらのネスト学習(Nested Learning、2025)などがある。後者は、モデルを階層的な最適化問題として構造化し、素早く適応するモジュールと遅く更新するモジュールを異なる時間スケールで動かす、というアイデアだ。これは生物の記憶の強化から着想を得ている。

蒸留は、教師モデルの凍結されたチェックポイントに学生モデルを一致させることで、以前のタスクの知識を保持する。LoRD(Liuら、2025)は、モデルの剪定とリプレイバッファを併用し、蒸留を効率化して継続的運用を可能にした。自己蒸留(SDFT、Shenfeldら、2026)は、出所を逆転させ、モデル自身の専門家条件下の出力を訓練信号として利用し、シーケンス微調整による壊滅的忘却を回避している。再帰的自己改善は、類似のアイデアに基づき、STaR(Zelikmanら、2022)は自己生成推論チェーンから推論能力を導き、AlphaEvolve(DeepMind、2025)は長年改善されていなかったアルゴリズム最適化を発見した。SilverとSuttonの「経験の時代」(2025)は、エージェント学習を永遠に続く経験の流れと定義している。

これらの研究は融合しつつある。TTT-Discoverはテスト時訓練とRL駆動の探索を融合し、HOPEは高速・低速学習ループを一つのアーキテクチャに内包している。SDFTは蒸留を自己改善の基本操作に変換した。列と列の境界は曖昧になりつつある。次世代の継続学習システムは、多様な戦略を組み合わせる可能性が高い:正則化で安定化、メタ学習で加速、自己改善で複利効果を狙う。多くのスタートアップもこの技術スタックのさまざまな層に投資している。

継続学習のスタートアップエコシステム

スペクトルの非パラメトリック側は最もよく知られている。外殻企業(Letta、mem0、Subconscious)は、コンテキストの編成層や脚手架を構築し、内容の管理を行う。外部ストレージやRAG基盤(例:Pinecone、xmemory)は検索の中核を担う。データは存在するが、正しいタイミングで正しい断片をモデルに提示することが課題だ。コンテキストウィンドウの拡大に伴い、これらの企業の設計空間も拡大しつつあり、特に外殻側では、新たなスタートアップが次々と登場し、ますます複雑化するコンテキスト戦略を管理している。

パラメータ側は、より早期かつ多様だ。ここでは、「展開後の圧縮」を試みる企業が多い。モデルの重みの中に新情報を内在化させることを目指す。大まかにいくつかの賭けに分かれる。

部分的圧縮:再訓練不要の学習。 一部のチームは、知識モジュール(圧縮されたKVキャッシュ、アダプタ層、外部記憶)を構築し、コアの重みを動かさずに専門化を実現している。共通の論点は、「意味のある圧縮」(単なる検索ではなく)を得ながら、安定性と可塑性のバランスを管理できる点だ。8Bモデルに適切なモジュールを付加すれば、109Bモデルと同等の性能をターゲットタスクで発揮でき、メモリ負荷も最小限に抑えられる。利点は、既存のTransformerインフラと容易に組み合わせられることだ。

強化学習とフィードバックループ:信号から学習。 もう一つの賭けは、展開後の学習に最も豊富な信号は、展開ループ自体に存在しているという考えだ——ユーザの修正、タスクの成功・失敗、実世界の結果から得られる報酬信号。モデルは、各インタラクションを潜在的な訓練信号とみなすべきだ。これは、人間が仕事の中で進歩する方法に非常に似ている。作業し、フィードバックを受け取り、効果的な方法を内面化する。課題は、疎でノイズの多い、時には対抗的なフィードバックを安定した重み更新に変換し、壊滅的な忘却を避けることだ。真に展開から学習できるモデルは、コンテキストシステムでは実現できない複利価値を生み出す。

データ中心:正しい信号から学習。 もう一つの賭けは、ボトルネックは学習アルゴリズムではなく、訓練データと周辺システムにあるという考えだ。これらのチームは、適切なデータを選別・生成・合成し、継続的な更新を促す。高品質で構造化された学習信号を持つモデルは、少ない勾配ステップで有意な改善が可能だ。これは、フィードバックループの会社とも自然に連携するが、上流の問題——モデルは何を学ぶべきか、どの程度学ぶべきか——に焦点を当てている。

新しいアーキテクチャ:基礎設計から学習能力を獲得。 最も革新的な賭けは、Transformerアーキテクチャ自体がボトルネックであり、継続学習には根本的に異なる計算原理——連続時間の動的と内蔵記憶を持つアーキテクチャ——が必要だと考えることだ。ここでは、構造的な議論がなされている。継続学習可能なシステムを作るには、学習メカニズムを基底層に埋め込むべきだ。

図注:継続学習スタートアップエコシステム

主要な研究所もこれらのカテゴリに積極的に取り組んでいる。より良いコンテキスト管理や思考連鎖推論を模索するところもあれば、外部記憶モジュールやスリープタイム計算パイプラインを試すところもある。いくつかの隠れたスタートアップは、新しいアーキテクチャの追求に動いている。この分野はまだ初期段階であり、どの方法も勝者にはなっていない。ユースケースの多様性を考えれば、唯一の勝者だけがいるわけではない。

素朴な重み更新が失敗する理由

実運用環境でモデルのパラメータを更新すると、多くの未解決の失敗パターンが発生する。

図注:素朴な重み更新の失敗パターン

工学的な問題は十分に記録されている。壊滅的忘却は、モデルが新しいデータに過敏になりすぎて既存の表現を破壊してしまう現象だ——安定性と可塑性のジレンマ。時間的なデカップリングは、不変ルールと可変状態が同じ重み群に圧縮されているため、一つを更新するともう一つが壊れる。論理的な統合の失敗は、事実の更新が推論に伝播しないことに起因する。変更はトークン列のレベルにとどまり、意味的な概念レベルには及ばない。忘却(アンラーニング)は未だに不可能だ。微分可能な引き算操作が存在しないため、誤った知識や有害な知識を正確に除去する手段がない。

もう一つの問題は、訓練と展開の分離だ。これは単なる工学的便宜だけでなく、安全性、監査性、ガバナンスの境界線でもある。この境界を開くと、多くの問題が同時に発生する。安全性の整合性は予測不能に低下する可能性がある。狭い範囲の微調整でも、広範な不調を引き起こすことがある。継続的な更新は、データの毒性攻撃面——遅くて持続的なプロンプト注入のリスク——を生む。これは重みの中に潜む。監査性も崩壊する。継続的に更新されるモデルは移動標的であり、バージョン管理や回帰テスト、単一認証が困難になる。ユーザのインタラクションがパラメータに圧縮されると、プライバシーリスクも増大し、敏感な情報が表現に埋め込まれ、検索コンテキストの情報よりもフィルタリングが難しくなる。

これらは未解決の問題であり、根本的に不可能なわけではない。これらを解決することは、コアアーキテクチャの課題と同じく、継続学習研究の一部だ。

『メメント』から本当の記憶へ

『メメント』の中のレナードの悲劇は、彼が動き続けられないことではない——彼はどの場面でも機転を利かせ、優秀だった。彼の悲劇は、彼が永遠に複利できないことだ。すべての経験は外部に留まり——ポラロイド、刺青、メモ——彼は検索はできるが、新しい知識を圧縮できない。

レナードがこの自己構築の迷宮をさまようとき、真実と信念の境界は曖昧になり始める。彼の病は記憶を奪っただけでなく、意味を再構築し続けることを強制し、彼自身の物語の探偵兼信頼できない語り手となる。

今日のAIもまた、同じ制約の下にある。私たちは非常に強力な検索システムを構築した——長いコンテキストウィンドウ、より賢い外殻、協調する多エージェント群——しかし、それは学習ではない。事実を調べられるシステムは、構造を見つけることを強制されていない。一般化を強いられていない。訓練を通じて、原始データを移植可能な表現に圧縮する仕組み——それこそが、展開時に私たちが止めてしまったものだ。

進む道は、おそらく単一の突破口ではなく、階層的なシステムになるだろう。コンテキスト学習は依然として最前線の適応防衛線だ——それはネイティブで検証済みであり、絶えず改善されている。モジュールの仕組みは、個性化や専門化の中間層を扱える。だが、真に難しい問題——発見、対抗的適応、言語化できない隠れた知識——については、訓練後に経験をパラメータに圧縮し続ける必要があるかもしれない。これには、疎なアーキテクチャ、メタ学習の目標、自律的な改良ループの進歩が必要だ。さらに、「モデル」の意味を再定義する必要もあるだろう——固定された重みの集合ではなく、進化し続けるシステムであり、記憶、更新アルゴリズム、自己経験から抽象化した能力を含む。

ファイルキャビネットはますます大きくなる。しかし、いかに巨大でも、それはファイルキャビネットに過ぎない。突破口は、モデルが展開後に訓練時に行うべきこと——圧縮、抽象化、学習——を可能にすることだ。私たちは、記憶喪失から経験の光を持つモデルへの転換点に立っている。さもなければ、私たちは自分たちの『メメント』の中に閉じこもることになる。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン