著者:Sarah Guo
翻訳:深潮 TechFlow
深潮ガイド:大規模モデルがすべてのランキングで人類を圧倒し始めると、投資家は絶望に陥り始める:AnthropicとNVIDIA以外に投資すべき価値のあるものは何か?このシリコンバレーのトップ投資家は、データと事例を用いて、真の防御壁はランキングにはなく、ベンチマークで測れない場所に隠されていると示している。
2026年半ば、投資家バージョンのAI精神錯乱は絶望的な状態だ:投資すべきものはほとんどなく、すべての資金をAnthropicとNVIDIAに投じて帰るべきだ。
私はそんな感覚を持ったことがない。モデルは私より何子も賢くなっていると確信しているし、市場価格でAnthropicとNVIDIAを買うことに喜びを感じている。私の最も賢い友人たちも、自分たちの改良がすぐに成功することをかなり確信している——しかし、それでもこの絶望感は感じていない。
この絶望は愚かではない。論理はこうだ:もしモデルがすべての面で継続的に良くなるなら、それに基づくすべての企業はただの薄い包装に過ぎず、吸収されるのを待つだけだ。唯一存続できる価値は計算能力と最先端の重みだけだ。
ソフトウェアを例にとると、これは絶望論者が最も頼るケースだ。Devinは2024年にリリースしたとき、標準的なソフトウェアのベンチマーク上で13%のタスクしか解決できず、ほとんど無視された。一年半後、最良のエージェントは80点以上を達成し、ゴールドマン・サックスや米軍内部で実際の仕事を行っている。ほとんどすべての人が同じ誤った教訓を導き出した:モデルはソフトウェアエンジニアリングを飲み込んだ。しかし、モデルがソフトウェアエンジニアリングの最も測定しやすい部分を飲み込むとき、私たちは多くのチームがすでに知っていることを再認識している——エンジニアリングは常に測定に抵抗し、最も測定しやすい部分が唯一重要な部分ではないかもしれない。
MITのMert Demirerとその共同研究者はついに数字を示した:10万人以上の開発者の中で、最新のコーディングエージェントは書いたコードの量を約180%増加させ、実際にリリースされたコードの量は約30%増加した。コードを書くコストが下がったのだ。残りの部分は依然として人間が必要であり、それも非常に重要だ。当然、純粋な影響は依然として驚くべきものだ。
ベンチマークは測定可能なものであり、測定できるものは訓練対象となるものだ。したがって、コーディングエージェントは最も早く成熟する:コンパイラは無料の検証者であり、テストスイートも無料の検証者だ。答えが自ら無料で自己検証できるとき、あなたはそれを磨き続けてそれに勝つことができる。しかし、テストを通じて得られるのは、改変が複数の未記録のモジュールを持つ理由や、デプロイパイプラインが誰も認めたくないcronジョブに頼る古いコードベースにとって正しいかどうかを教えてくれるわけではない。
その正しさはランキングからは読み取れず、実際には何からも読み取れない。現実世界で十分長く運用しながら学習し、その複雑なシステムが有効かどうかを判断するしかない。そして、より賢いモデルが世界をより速く動かすわけではない。Google規模のものにユニットテストを行い、緑のチェックを信じる人はいない。なぜなら、それは長年の実負荷に耐えたからだ。この正しさは私的なものであり、資本が崩壊しない緩やかな防御壁でもある。楽観主義者さえも認める:時刻は飛び越えられないと。OpenAIの推論モデルの先駆者、Noam Brownは最近こう書いた:エージェントの一年間の評価において唯一信頼できる方法は……それを一年間動かすことだ。
Gabe Pereyraが言うように、真の自動化はモデルの向上だけではない。それは製品、モデル、ワークフロー、そして企業が一緒に動くことだ。そして、そのうちの3つは組織の速度で動いている。
動いている部分はランキングでは触れられない部分だ:懐疑的なパートナーに彼女の処理方法を変えさせ、再構築の過程でチームの団結を保つこと。だからこそ、CEOを採用するとき、人的資源の扱いは分析能力と同じくらい重要だ。より賢いモデルはこの重みを変えない。フィードバックは曖昧で、時間軸は数年、信頼は一人に属する。私が知るすべての会社は、すべてのエンジニアに最先端のコーディングモデルを使わせているが、そのエンジニアリング組織をその速度で変える会社は一つもない。四半期でのトークン増加は素晴らしいが、再構築には数年かかる。
見えているのは、去っていくものだ。価値のある仕事は構造的に見えにくい:ランキングに載せられるものはすべて、それに対して訓練できるため、測定可能なものはすでに商品化の道を歩んでいる。この過程は時間を要し、完全には終わらないが、方向性は常に変わらない。Ripplingの友人Matt MacInnisの言葉を借りれば:一般的な問題に対して使われるトークンはほとんど価値がなく、誰のモデルも答えられるからだ。一方、あなたの会社のデータに基づく推論に使われるトークンの価値ははるかに高い。なぜなら、それはあなたが本当に望むことを行うからだ。
見えている仕事は二つの方向から奪われる。下からは、タスクの飽和だ:安価に検証できる仕事があれば、買い手はどのモデルがやったかではなく、いくらかかったかを問うようになる。そうなると、その仕事は最も安いオープンソースや蒸留モデルに落ち着く。影響を与えられる場所では、利益率が最も重要になる。上からは、研究所は自らの足場を飲み込もうとしている。検索、安価と高価な呼び出しのルーティング、ツールの使用、推論戦略、かつてモデルを包んでいたすべての装置が重みの中に取り込まれ、包装器がモデルそのものになる。これが先端の吸収だ。利益率の圧力も逆に働く:汎用エージェントは何にでも備える必要があり高価だが、特化したアプリケーションはワークフローを調整し、少量のトークン支出で動作させることができる。そして、これらのトークンを販売する研究所とは異なり、差額を保持できる。
だから、私たちはどんなタイプの仕事にも二つの質問を投げかけられる。それは、その正しさが私的で高コストなものか、内部の真実だけに存在するものか?それは隔離されているのか、アクセスできないシステムに閉じ込められているのか?これらを仕事の飽和度と比較すると、2×2のマトリクスになる。公開された答えのある飽和仕事は商品トークンであり、オープンソースモデルがそれを持つ。公開された最先端の仕事、ベンチマークの所在は研究所の勝利の場所だ。なぜなら、評価が無料だからだ。最後の隅、訓練できない部分は、正しさが私的な領域にしか存在しない最先端の仕事だ。あなたはそれをホスティングされたAIネイティブの推論クラウドで見ることができる。ほとんどのトークンはカスタムモデルによって生成されており、汎用のオープンソースモデルではない。
最後の隅に入る壁の高さはさまざまだ。個人開発者の玩具コードベースは移植性と標準化が高いため、登るのは短い。銀行の本番システムはそうではなく、SWE-Bench Verifiedで賢さ2%向上してもルート権限は得られない。
能力は多くのものを奪うが、より良いモデルは私的な基本事実を公開に変えない。それはライセンスを持たず、責任を負わず、会社の文書も所有しない。答えが間違っているとき、それは訴追される側になれない。知性はここでのボトルネックではない。ライセンスと責任だ。あなたは、誰よりも賢いモデルでも、入ることを許されなければならず、誰かがその行為に対して署名しなければならないと想像できる。
その扉には鍵と門扉がある。鍵は環境だ:システム内部で信頼されている場合にのみ、安全審査、統合、署名結果の契約を経て、AIが有用なことをしたかどうかを検証できる。門扉はユーザーだ。現在の米国の医師の多くは毎日OpenEvidenceを開いているが、そのための計算資源は手に入らない。研究所は明日、完璧な医療モデルを訓練できるが、医師の習慣に入り込むことも、カリフォルニア大学サンフランシスコ校の意思決定プロセスに入ることもできない。信頼はゆっくりと築かれ、関係に基づき、ユーザーの黙認を必要とし、勾配降下を消すことはできない。
これも仕事だ。アプリケーションは、目立たない仕事を通じてその場所を獲得する:企業の私的現実を整え、モデルが行動できるようにし、行動のツールを提供し、顧客と協力して従業員の現実を変える。翻訳をもたらす会社は模倣しにくい——そして翻訳は永遠に終わらない。統合とメンテナンスは長く続き、専門エンジニアとツールを顧客のそばに置くチームが勝つ。
例を挙げると、トップクラスのホワイトシュー法律事務所では、M&Aだけで年間千件近くの取引を行っている。秘密保持やその他多くの理由から、数百人のアシスタントが顧客ファイルをデスクにダウンロードし、汎用エージェントに閲覧させることはできない。できたとしても、断片的な学びしか得られず、一人のアシスタントの修正を通じてしか全取引の流れを理解できない。重要な信号は取引のレベルに存在し、取引には形がある:M&Aでは秘密保持契約、条項リスト、デューデリジェンス、買収契約、付属書類、引き渡しリスト;IP訴訟では動議、証拠開示、技術の現状、追加動議。各ビジネス分野には独自のものがあり、弁護士やツールは横断できない。そして、法律事務所が実際に解決すべき問題は、そのすべての上にある層にある:各ビジネス分野を並行して運営し、トップパートナーが何百もの案件を同時に進め、新たな案件を導入し、アシスタントを訓練することだ。こうした法律事務所の変革は、一つの評価タスクでは完結しない。データ分析を用いた運営者の手によるもので、目標は非常に曖昧で、フィードバックは不完全で、長い時間軸を持ち、静止しない環境の中で行われる。
残念ながら、見えない価値も販売しにくい。理由は商品化の難しさと同じだ:企業はAIが運営を変革するかどうかを外部から判断できず、ベンチマークも判断できない。だから最も強力な企業は、外部から証明しようとするのをやめ、内部で結果に価格をつける。Sierraはエージェントが顧客の問題を解決したときに料金を取り、人間に問題を投げたときは無料にしている。だから価格が評価の基準となる。これは、Sierraが「解決済み」の定義を持つ場合にのみ有効だ。CognitionのDevinも同じことをしており、「性能保証」を提供している。これは、信頼されたシステム内でのみ結果に対して保証を提供できる。
サービストークンも、誰もが「純粋な商品」と呼ぶ層を好むが、実際には商品と同じようには機能しない。最良のAIネイティブ企業は、サービスをBasetenやFireworksのような一、二の提供者に集中させている。なぜなら、各トークンコストは計画通り商品化されるが、実際のトラフィック下での信頼性や希少な計算資源へのアクセスは保証されないからだ。あなたがどこでサービスを提供するかは、どのモデルを使うかと異なる選択だ。価格は推論の中で唯一商品と同じように機能する部分だ。
よくある反論は、研究所はあなたのサプライヤーであり、なぜ彼らはコスト以下で自社のファーストパーティ製品を運用し、あなたのAPIアクセスを奪い、市場を支配しようとしないのか?これは絶望論の真のバージョンであり、モデル層が一人遊びのときにのみ有効だ。明らかにそうではない——それは、国際的なプレイヤーが6か月遅れで訓練を行い、昨年の5倍の規模の連盟を築く、三つ半の死闘のようなものだ。顧客はサプライヤー間の競争を望み、研究所は市場シェアを求めており、どのアプリも死なせたくない。
この点は、研究所の正面市場でよく見られる。消費者のチャットでは、最良のモデルは決して単純に勝つわけではない。ChatGPTは長年の競争を勝ち抜き、今失われつつあるシェアはGeminiに流れている。これはAndroidや検索の力によるもので、より良いモデルによるものではない。Anthropicは、予測市場(とインターネットの雰囲気)で、最も良いモデルを持つ企業とされているが、消費者のチャットではほとんど無視されている。一方、企業やコーディングの分野では、独自のビジネスを築いている。より良いモデルが最もコアなアプリで競合他社のユーザーを奪えなければ、病院の記録や銀行の責任を超えた統合はできない。今日の一般の選択は、コーディングだけに基づいているわけではない。最先端が混雑したままであれば、その上に価値あるものが築かれる。
もし仕事が外部から評価できないなら、内部の誰かが良い答えを決める必要があり、その決定こそがゲームのすべてだ。これらの決定を十分に記録すれば、それはベンチマークとなる。Harveyは法律のためのベンチマークを作り、Sierraは音声エージェントのためのものを作った。すでに使われている分野において、その分野にとって何が良いかを定義する権利を獲得するのだ。これらの評価は私的であり、企業ごとに異なる:この会社はこの種の仕事に何を良いとみなすかを決めている。法律のベンチマークは、深さのある判断であり、医師に委ねられる。解決済みとは、すでに顧客を持つ企業が何を意味するかを示す。
先端の吸収は絶えず進行している。私たちはより多くの仕事を測定できるようになり、測定可能なものは奪われていく。不可訓練の地面は、その上にいる者の足元で縮小し続けるため、防御点を見つけて休むことはできない。測定できないものに向かって絶えず進み、再保険を繰り返す。狭いタスクにおいて、私的データと自分の評価を用いて、最先端に訓練し、重要な場所で汎用モデルを凌駕できる。その専門モデルは防御壁の一部となる。一方、汎用モデルと競争することは資本戦争であり、最も計算資源を持つ者に負ける。浅いアクセスと見えるタスクを持つ企業の罠だ。すべての資源は、最先端を超えて生き残るために、データセンターの規模に左右される。結局は、独立したチャンピオンではなく、計算資源豊富な者に売られる結果になる。
これらはすべて防御だ。より難しいのは攻撃であり、何を最初に構築するかの選択だ。これを1年かけて探し、3回見つけたかもしれない。モデルはここでは役に立たない。指し示すことはできても、何を指し示すべきかは教えられず、それをベンチマークできないため、訓練もできない。これが、既存の企業がすべてを奪わない理由だ。彼らは自分たちの縄張りを守り、次のものは、我々より先に用途を見つけた人から来る。もしかすると、意図は計算資源よりも希少な投入物かもしれない。
絶望論は半分正しい。薄い包装層は確かに吸収されつつある。今日、多くの企業のものは薄い包装に見える。それは残りの何かが間違っていることを示す。仕組みは明確だ;目的地はそうではない。私が賭けるのは方向性だ:知性は絶えず安くなり、価値はモデルが到達できない少数の場所に滑り落ちていく。不可訓練の価値は歴史的なものだ。だから、ある場所に入り、目立たない翻訳を行い、そこが何を意味するかを書き始める——誰かがやるからだ。今年最も引用されたベンチマークスコアは、すぐに価値を失う領土地図と、「誰が何を失うか」を示す通知だ。
41.9K 人気度
314.08K 人気度
57.21K 人気度
693.59K 人気度
786.97K 人気度
AI 投资人的 2026 焦虑:当模型吞噬一切,创业公司的护城河还剩什么?
著者:Sarah Guo
翻訳:深潮 TechFlow
深潮ガイド:大規模モデルがすべてのランキングで人類を圧倒し始めると、投資家は絶望に陥り始める:AnthropicとNVIDIA以外に投資すべき価値のあるものは何か?このシリコンバレーのトップ投資家は、データと事例を用いて、真の防御壁はランキングにはなく、ベンチマークで測れない場所に隠されていると示している。
2026年半ば、投資家バージョンのAI精神錯乱は絶望的な状態だ:投資すべきものはほとんどなく、すべての資金をAnthropicとNVIDIAに投じて帰るべきだ。
私はそんな感覚を持ったことがない。モデルは私より何子も賢くなっていると確信しているし、市場価格でAnthropicとNVIDIAを買うことに喜びを感じている。私の最も賢い友人たちも、自分たちの改良がすぐに成功することをかなり確信している——しかし、それでもこの絶望感は感じていない。
この絶望は愚かではない。論理はこうだ:もしモデルがすべての面で継続的に良くなるなら、それに基づくすべての企業はただの薄い包装に過ぎず、吸収されるのを待つだけだ。唯一存続できる価値は計算能力と最先端の重みだけだ。
ソフトウェアを例にとると、これは絶望論者が最も頼るケースだ。Devinは2024年にリリースしたとき、標準的なソフトウェアのベンチマーク上で13%のタスクしか解決できず、ほとんど無視された。一年半後、最良のエージェントは80点以上を達成し、ゴールドマン・サックスや米軍内部で実際の仕事を行っている。ほとんどすべての人が同じ誤った教訓を導き出した:モデルはソフトウェアエンジニアリングを飲み込んだ。しかし、モデルがソフトウェアエンジニアリングの最も測定しやすい部分を飲み込むとき、私たちは多くのチームがすでに知っていることを再認識している——エンジニアリングは常に測定に抵抗し、最も測定しやすい部分が唯一重要な部分ではないかもしれない。
MITのMert Demirerとその共同研究者はついに数字を示した:10万人以上の開発者の中で、最新のコーディングエージェントは書いたコードの量を約180%増加させ、実際にリリースされたコードの量は約30%増加した。コードを書くコストが下がったのだ。残りの部分は依然として人間が必要であり、それも非常に重要だ。当然、純粋な影響は依然として驚くべきものだ。
ベンチマークは測定可能なものであり、測定できるものは訓練対象となるものだ。したがって、コーディングエージェントは最も早く成熟する:コンパイラは無料の検証者であり、テストスイートも無料の検証者だ。答えが自ら無料で自己検証できるとき、あなたはそれを磨き続けてそれに勝つことができる。しかし、テストを通じて得られるのは、改変が複数の未記録のモジュールを持つ理由や、デプロイパイプラインが誰も認めたくないcronジョブに頼る古いコードベースにとって正しいかどうかを教えてくれるわけではない。
その正しさはランキングからは読み取れず、実際には何からも読み取れない。現実世界で十分長く運用しながら学習し、その複雑なシステムが有効かどうかを判断するしかない。そして、より賢いモデルが世界をより速く動かすわけではない。Google規模のものにユニットテストを行い、緑のチェックを信じる人はいない。なぜなら、それは長年の実負荷に耐えたからだ。この正しさは私的なものであり、資本が崩壊しない緩やかな防御壁でもある。楽観主義者さえも認める:時刻は飛び越えられないと。OpenAIの推論モデルの先駆者、Noam Brownは最近こう書いた:エージェントの一年間の評価において唯一信頼できる方法は……それを一年間動かすことだ。
Gabe Pereyraが言うように、真の自動化はモデルの向上だけではない。それは製品、モデル、ワークフロー、そして企業が一緒に動くことだ。そして、そのうちの3つは組織の速度で動いている。
動いている部分はランキングでは触れられない部分だ:懐疑的なパートナーに彼女の処理方法を変えさせ、再構築の過程でチームの団結を保つこと。だからこそ、CEOを採用するとき、人的資源の扱いは分析能力と同じくらい重要だ。より賢いモデルはこの重みを変えない。フィードバックは曖昧で、時間軸は数年、信頼は一人に属する。私が知るすべての会社は、すべてのエンジニアに最先端のコーディングモデルを使わせているが、そのエンジニアリング組織をその速度で変える会社は一つもない。四半期でのトークン増加は素晴らしいが、再構築には数年かかる。
見えているのは、去っていくものだ。価値のある仕事は構造的に見えにくい:ランキングに載せられるものはすべて、それに対して訓練できるため、測定可能なものはすでに商品化の道を歩んでいる。この過程は時間を要し、完全には終わらないが、方向性は常に変わらない。Ripplingの友人Matt MacInnisの言葉を借りれば:一般的な問題に対して使われるトークンはほとんど価値がなく、誰のモデルも答えられるからだ。一方、あなたの会社のデータに基づく推論に使われるトークンの価値ははるかに高い。なぜなら、それはあなたが本当に望むことを行うからだ。
見えている仕事は二つの方向から奪われる。下からは、タスクの飽和だ:安価に検証できる仕事があれば、買い手はどのモデルがやったかではなく、いくらかかったかを問うようになる。そうなると、その仕事は最も安いオープンソースや蒸留モデルに落ち着く。影響を与えられる場所では、利益率が最も重要になる。上からは、研究所は自らの足場を飲み込もうとしている。検索、安価と高価な呼び出しのルーティング、ツールの使用、推論戦略、かつてモデルを包んでいたすべての装置が重みの中に取り込まれ、包装器がモデルそのものになる。これが先端の吸収だ。利益率の圧力も逆に働く:汎用エージェントは何にでも備える必要があり高価だが、特化したアプリケーションはワークフローを調整し、少量のトークン支出で動作させることができる。そして、これらのトークンを販売する研究所とは異なり、差額を保持できる。
だから、私たちはどんなタイプの仕事にも二つの質問を投げかけられる。それは、その正しさが私的で高コストなものか、内部の真実だけに存在するものか?それは隔離されているのか、アクセスできないシステムに閉じ込められているのか?これらを仕事の飽和度と比較すると、2×2のマトリクスになる。公開された答えのある飽和仕事は商品トークンであり、オープンソースモデルがそれを持つ。公開された最先端の仕事、ベンチマークの所在は研究所の勝利の場所だ。なぜなら、評価が無料だからだ。最後の隅、訓練できない部分は、正しさが私的な領域にしか存在しない最先端の仕事だ。あなたはそれをホスティングされたAIネイティブの推論クラウドで見ることができる。ほとんどのトークンはカスタムモデルによって生成されており、汎用のオープンソースモデルではない。
最後の隅に入る壁の高さはさまざまだ。個人開発者の玩具コードベースは移植性と標準化が高いため、登るのは短い。銀行の本番システムはそうではなく、SWE-Bench Verifiedで賢さ2%向上してもルート権限は得られない。
能力は多くのものを奪うが、より良いモデルは私的な基本事実を公開に変えない。それはライセンスを持たず、責任を負わず、会社の文書も所有しない。答えが間違っているとき、それは訴追される側になれない。知性はここでのボトルネックではない。ライセンスと責任だ。あなたは、誰よりも賢いモデルでも、入ることを許されなければならず、誰かがその行為に対して署名しなければならないと想像できる。
その扉には鍵と門扉がある。鍵は環境だ:システム内部で信頼されている場合にのみ、安全審査、統合、署名結果の契約を経て、AIが有用なことをしたかどうかを検証できる。門扉はユーザーだ。現在の米国の医師の多くは毎日OpenEvidenceを開いているが、そのための計算資源は手に入らない。研究所は明日、完璧な医療モデルを訓練できるが、医師の習慣に入り込むことも、カリフォルニア大学サンフランシスコ校の意思決定プロセスに入ることもできない。信頼はゆっくりと築かれ、関係に基づき、ユーザーの黙認を必要とし、勾配降下を消すことはできない。
これも仕事だ。アプリケーションは、目立たない仕事を通じてその場所を獲得する:企業の私的現実を整え、モデルが行動できるようにし、行動のツールを提供し、顧客と協力して従業員の現実を変える。翻訳をもたらす会社は模倣しにくい——そして翻訳は永遠に終わらない。統合とメンテナンスは長く続き、専門エンジニアとツールを顧客のそばに置くチームが勝つ。
例を挙げると、トップクラスのホワイトシュー法律事務所では、M&Aだけで年間千件近くの取引を行っている。秘密保持やその他多くの理由から、数百人のアシスタントが顧客ファイルをデスクにダウンロードし、汎用エージェントに閲覧させることはできない。できたとしても、断片的な学びしか得られず、一人のアシスタントの修正を通じてしか全取引の流れを理解できない。重要な信号は取引のレベルに存在し、取引には形がある:M&Aでは秘密保持契約、条項リスト、デューデリジェンス、買収契約、付属書類、引き渡しリスト;IP訴訟では動議、証拠開示、技術の現状、追加動議。各ビジネス分野には独自のものがあり、弁護士やツールは横断できない。そして、法律事務所が実際に解決すべき問題は、そのすべての上にある層にある:各ビジネス分野を並行して運営し、トップパートナーが何百もの案件を同時に進め、新たな案件を導入し、アシスタントを訓練することだ。こうした法律事務所の変革は、一つの評価タスクでは完結しない。データ分析を用いた運営者の手によるもので、目標は非常に曖昧で、フィードバックは不完全で、長い時間軸を持ち、静止しない環境の中で行われる。
残念ながら、見えない価値も販売しにくい。理由は商品化の難しさと同じだ:企業はAIが運営を変革するかどうかを外部から判断できず、ベンチマークも判断できない。だから最も強力な企業は、外部から証明しようとするのをやめ、内部で結果に価格をつける。Sierraはエージェントが顧客の問題を解決したときに料金を取り、人間に問題を投げたときは無料にしている。だから価格が評価の基準となる。これは、Sierraが「解決済み」の定義を持つ場合にのみ有効だ。CognitionのDevinも同じことをしており、「性能保証」を提供している。これは、信頼されたシステム内でのみ結果に対して保証を提供できる。
サービストークンも、誰もが「純粋な商品」と呼ぶ層を好むが、実際には商品と同じようには機能しない。最良のAIネイティブ企業は、サービスをBasetenやFireworksのような一、二の提供者に集中させている。なぜなら、各トークンコストは計画通り商品化されるが、実際のトラフィック下での信頼性や希少な計算資源へのアクセスは保証されないからだ。あなたがどこでサービスを提供するかは、どのモデルを使うかと異なる選択だ。価格は推論の中で唯一商品と同じように機能する部分だ。
よくある反論は、研究所はあなたのサプライヤーであり、なぜ彼らはコスト以下で自社のファーストパーティ製品を運用し、あなたのAPIアクセスを奪い、市場を支配しようとしないのか?これは絶望論の真のバージョンであり、モデル層が一人遊びのときにのみ有効だ。明らかにそうではない——それは、国際的なプレイヤーが6か月遅れで訓練を行い、昨年の5倍の規模の連盟を築く、三つ半の死闘のようなものだ。顧客はサプライヤー間の競争を望み、研究所は市場シェアを求めており、どのアプリも死なせたくない。
この点は、研究所の正面市場でよく見られる。消費者のチャットでは、最良のモデルは決して単純に勝つわけではない。ChatGPTは長年の競争を勝ち抜き、今失われつつあるシェアはGeminiに流れている。これはAndroidや検索の力によるもので、より良いモデルによるものではない。Anthropicは、予測市場(とインターネットの雰囲気)で、最も良いモデルを持つ企業とされているが、消費者のチャットではほとんど無視されている。一方、企業やコーディングの分野では、独自のビジネスを築いている。より良いモデルが最もコアなアプリで競合他社のユーザーを奪えなければ、病院の記録や銀行の責任を超えた統合はできない。今日の一般の選択は、コーディングだけに基づいているわけではない。最先端が混雑したままであれば、その上に価値あるものが築かれる。
もし仕事が外部から評価できないなら、内部の誰かが良い答えを決める必要があり、その決定こそがゲームのすべてだ。これらの決定を十分に記録すれば、それはベンチマークとなる。Harveyは法律のためのベンチマークを作り、Sierraは音声エージェントのためのものを作った。すでに使われている分野において、その分野にとって何が良いかを定義する権利を獲得するのだ。これらの評価は私的であり、企業ごとに異なる:この会社はこの種の仕事に何を良いとみなすかを決めている。法律のベンチマークは、深さのある判断であり、医師に委ねられる。解決済みとは、すでに顧客を持つ企業が何を意味するかを示す。
先端の吸収は絶えず進行している。私たちはより多くの仕事を測定できるようになり、測定可能なものは奪われていく。不可訓練の地面は、その上にいる者の足元で縮小し続けるため、防御点を見つけて休むことはできない。測定できないものに向かって絶えず進み、再保険を繰り返す。狭いタスクにおいて、私的データと自分の評価を用いて、最先端に訓練し、重要な場所で汎用モデルを凌駕できる。その専門モデルは防御壁の一部となる。一方、汎用モデルと競争することは資本戦争であり、最も計算資源を持つ者に負ける。浅いアクセスと見えるタスクを持つ企業の罠だ。すべての資源は、最先端を超えて生き残るために、データセンターの規模に左右される。結局は、独立したチャンピオンではなく、計算資源豊富な者に売られる結果になる。
これらはすべて防御だ。より難しいのは攻撃であり、何を最初に構築するかの選択だ。これを1年かけて探し、3回見つけたかもしれない。モデルはここでは役に立たない。指し示すことはできても、何を指し示すべきかは教えられず、それをベンチマークできないため、訓練もできない。これが、既存の企業がすべてを奪わない理由だ。彼らは自分たちの縄張りを守り、次のものは、我々より先に用途を見つけた人から来る。もしかすると、意図は計算資源よりも希少な投入物かもしれない。
絶望論は半分正しい。薄い包装層は確かに吸収されつつある。今日、多くの企業のものは薄い包装に見える。それは残りの何かが間違っていることを示す。仕組みは明確だ;目的地はそうではない。私が賭けるのは方向性だ:知性は絶えず安くなり、価値はモデルが到達できない少数の場所に滑り落ちていく。不可訓練の価値は歴史的なものだ。だから、ある場所に入り、目立たない翻訳を行い、そこが何を意味するかを書き始める——誰かがやるからだ。今年最も引用されたベンチマークスコアは、すぐに価値を失う領土地図と、「誰が何を失うか」を示す通知だ。