Kimi K2.5登場!ビジョンと100体エージェント連携でLLMは新次元へ - オープンソースの衝撃

Kimi K2.5登場!ビジョンと100体エージェント連携でLLMは新次元へ - オープンソースの衝撃

テクノロジーマルチモーダルAIAILLMKimi K2.5オープンウェイトマルチモーダル

Moonshot AIが最新のオープンウェイトマルチモーダルLLM「Kimi K2.5」を発表しました。このモデルは、特にコーディングタスクにおいて、GPT-5やGeminiといった最先端モデルに匹敵するベンチマークスコアを記録しています。さらに、最大100体のサブエージェントを指示し、並列ワークフローで問題解決にあたる「エージェントスイームモード」を搭載している点が注目されます。

Kimi K2.5の機能と特徴

Kimi K2.5は、以前のKimi K2 MoE LLMを基盤とし、テキストのみの処理能力に加えて、新たにビジョン機能を統合しました。これにより、フロントエンド開発タスクなど、視覚情報とコード生成が求められる場面で高いパフォーマンスを発揮します。モデルは、Instant、Thinking、Agent、そしてAgent Swarmの4つの動作モードをサポートしています。中でもAgent Swarmモードは、研究プレビュー段階ながら、複雑なタスクをサブタスクに分解し、複数のサブエージェントが並列で実行する能力を示しています。Agentモードは、ドキュメントやスプレッドシートの作成といったオフィス生産性タスクの支援に特化しています。Moonshot AIは、「コーディング、ビジョン、エージェントスイーム、オフィス生産性における進歩に根ざしたKimi K2.5は、オープンソースコミュニティにとってAGI(汎用人工知能)に向けた重要な一歩であり、現実世界の制約下での実世界のタスクに対する強力な能力を示しています。今後、エージェント知性のフロンティアをさらに追求し、ナレッジワークにおけるAIの境界を再定義していきます」と述べています。

進化したアーキテクチャと学習

Kimi K2.5は、MoonshotのMoonViT-3Dビジョンエンコーダーを組み込むことで、Kimi K2アーキテクチャを拡張しています。開発チームは、Kimi K2のチェックポイントから開始し、さらに15兆トークンに及ぶ事前学習プロセスを経て、その後に教師ありファインチューニングと強化学習を実施しました。

エージェントスイームモードの革新

エージェントスイーム機能のために、Moonshotチームは「Parallel Agent Reinforcement Learning (PARL)」という新しい強化学習技術を開発しました。これにより、Kimi K2.5は複雑なタスクを分解し、並列処理する能力を獲得しました。PARLは、学習の不安定性、曖昧なクレジット割り当て、「シリアルコラプス」(オーケストレーターが単一エージェントしか実行しない現象)といった課題に対処するために開発されました。PARLでは、サブエージェントは固定された状態で、オーケストレーターのみが学習を行います。報酬関数は、サブエージェントの作成とサブタスクの成功裏な完了を奨励するように設計されています。

ベンチマークにおける卓越した性能

Moonshotチームは、Kimi K2.5を広範なベンチマークで評価しました。特にエージェントスイーム機能においては、リサーチおよび情報検索能力を測定するBrowseCompとWideSearchを使用しました。BrowseCompでは、Kimi K2.5はGPT-5.2 Proを上回り、WideSearchではClaude Opus 4.5を凌駕しました。また、並列実行による「大幅なウォールクロック時間の短縮」も実現しています。さらに、エージェントスイームは「プロアクティブなコンテキスト制御」を示し、コンテキストオーバーフローのリスクを低減し、コンテキストの要約なしに全体的なコンテキスト長を効果的にスケーリングすると指摘されています。

Andrew Ng氏の「The Batch」ニュースレターでは、Kimi K2.5について次のように論じられています。「エージェントワークフローの構築は、特定のタスクにおけるモデルのパフォーマンスを向上させることができます。定義済みのエージェントワークフローとは異なり、Kimi K2.5は新しいサブエージェントが必要なタイミング、その役割、そしてそれを委任するタイミングを決定します。この自動化されたエージェントオーケストレーションは、並列実行が容易なタスクのパフォーマンスを向上させます...Kimi K2.5は、タスク実行を連鎖思考(chain-of-thought)推論からエージェントチームワークへとシフトさせます。プロンプトに逐次的に応答するのではなく、ジョブの異なる部分を並列で実行する個別のワークフロー/モデルのマネージャーとして機能します」。

Kimi K2.5は、WebインターフェースまたはMoonshotのAPIを通じて利用可能です。モデルのウェイトはHuggingfaceでも公開されています。

Kimi K2.5が示すAIの未来とオープンソースの可能性

Kimi K2.5の登場は、オープンソースLLMの進化が商用モデルに急速に追いつき、一部では凌駕し始めていることを示しています。特に、ビジョン機能の統合と、複数のエージェントが協調してタスクを解決する「エージェントスイーム」の概念は、AIがより複雑で現実世界の問題に対処できる可能性を秘めています。

マルチモーダル能力の重要性

テキストだけでなく画像などの情報を理解し処理できるマルチモーダル能力は、AIがより人間のように世界を認識し、インタラクションするための鍵となります。Kimi K2.5は、この分野でのオープンソースコミュニティの進歩を象徴しており、今後、より多様なアプリケーションへの応用が期待されます。

エージェントスイームによるタスク実行のパラダイムシフト

従来のLLMが単一の思考プロセスで応答を生成していたのに対し、Kimi K2.5のエージェントスイームは、タスクを小さな部分に分割し、それぞれの専門エージェントに割り当てることで、効率と精度を向上させます。これは、Andrew Ng氏が指摘するように、AIのタスク実行方法を「連鎖思考」から「チームワーク」へと進化させるものです。このアプローチは、複雑な問題解決、大規模なデータ分析、あるいは高度なコーディング作業など、多岐にわたる分野でブレークスルーをもたらす可能性があります。

オープンソースモデルの将来展望

Kimi K2.5がオープンウェイトで提供されることは、AI研究開発の民主化と加速に大きく貢献します。開発者コミュニティは、この強力な基盤モデルを自由に利用し、改良し、独自のアプリケーションを構築することができます。これにより、AI技術のイノベーションがさらに促進され、AGIへの道筋がより現実的なものとなるでしょう。

Kimi K2.5は、単なるLLMのアップデートに留まらず、AIがより自律的に、より協調的に、そしてより人間のような理解力を持ってタスクを実行する未来への扉を開くものです。オープンソースという強力な推進力を背景に、Kimi K2.5がAIの新たな時代を切り拓くことが期待されます。

画像: AIによる生成