NVIDIA、AI推論の新時代へ:Blackwell Ultra記録達成と次世代Rubin CPX発表の衝撃

NVIDIA、AI推論の新時代へ:Blackwell Ultra記録達成と次世代Rubin CPX発表の衝撃

テクノロジー機械学習NVIDIARubin CPXBlackwell UltraMLPerfAI

NVIDIAはAIインフラストラクチャサミットにおいて、最新のAIチップに関する重要な発表を行いました。同社は、最新鋭のGB300 Blackwell Ultra GPUでMLPerfを実行し、AI推論性能のあらゆる記録を塗り替えたことを明らかにしました。これは、新ハードウェアだけでなく、ソフトウェアアーキテクチャの変更による成果でもあります。

MLPerfにおけるBlackwell Ultraの記録的快挙

NVIDIAは、MLPerfの記録達成において、NVFP4フォーマットの広範な利用や、Mixture of Experts(MoE)部分の専門的な並列処理、そして「Attention Data Parallelism Balance」によるインテリジェントなコンテキストクエリ分散など、新しい技術が活用されたと説明しています。

AI推論における「Disaggregated Serving」の革新

同社は、「Disaggregated Serving」という、AI推論ワークロードを2つのGPUプールに分割する技術についても言及しました。これは、AI推論が「Context/Prefill」と「Decode/Generation」という2つの異なるタスクに分けられるという認識に基づいています。前者は計算集約型、後者はメモリバウンド型であるため、これらを別々のGPUで処理することで、NVIDIAによると、GPUあたりのスループットが1.5倍向上し、従来のHopperシステムと比較して5.4倍の性能を達成したとしています。

大規模コンテキスト推論のためのNVIDIA Rubin CPX

こうした推論の二面性を踏まえ、NVIDIAは次世代GPU「Rubin CPX」を発表しました。Rubin CPXは、HBM3eメモリではなくGDDR7メモリを採用し、オンチップのビデオエンコーダーを搭載して生成ビデオAIでの利用を想定しています。標準のRubin GPUが汎用性と広範なメモリ帯域幅を誇るのに対し、Rubin CPXは「大規模コンテキスト推論」に特化しています。

Rubin CPX搭載の次世代インフラストラクチャ

「コンテキスト」とは、プロンプトや会話履歴など、ニューラルネットワークに供給されるデータを指します。Rubin CPX GPUは、このコンテキスト処理を高速に実行し、標準のRubin GPUが生成タスクを処理するという役割分担が想定されています。NVIDIAによると、Rubin CPXは標準のGB300と比較して指数演算が3倍高速で、NVFP4フォーマットで30ペタFLOPSのテンソルコンピュート性能を発揮します。

新しいインフラストラクチャソリューション

新しいGPUに合わせて、NVIDIAは新しいラックソリューションも発表しました。標準のVera Rubin NVL144は72個のRubin GPUパッケージと36個のVera CPUを搭載しますが、アップグレード版の「Vera Rubin NVL144 CPX」は、各コンピュートトレイに8個のRubin CPXチップを追加し、ラック全体のNVFP4コンピュートを8エクサFLOPS以上に引き上げます。

さらに、標準のVera Rubin NVL144コンピュートトレイと、標準Rubin GPUを含まない「Vera Rubin CPX」コンピュートトレイを組み合わせたデュアルラックソリューションも発表されました。これにより、総メモリ容量は150TBに増加し、理論上はさらに高速になるとのことですが、NVIDIAは同じ「8 EF」のNVFP4スループットを引用しています。

標準のVera Rubin NVL144システムは来年後半に、Rubin Ultra NVL576は2027年に登場予定ですが、Vera Rubin NVL144 CPXとデュアルラックソリューションは来年末までに利用可能になる見込みです。

考察:AIインフラの進化が加速する未来

NVIDIAの最新発表は、AI、特に大規模言語モデル(LLM)や生成AIの分野における計算能力の要求が、指数関数的に増加している現状を鮮明に示しています。Blackwell Ultra GPUによるMLPerf記録の達成と、それに続くRubin CPXの発表は、単なる性能向上に留まらず、AIワークロードの特性に合わせたインフラストラクチャの最適化という、より高度な戦略が見て取れます。

AIワークロードの高度化とインフラの最適化

従来の単一GPUでの処理から、推論タスクを「Context/Prefill」と「Decode/Generation」に分割し、それぞれに最適なGPU(Rubin CPXと標準Rubin)を割り当てるというアプローチは、AIインフラの設計思想に大きな変化をもたらすでしょう。これは、AIモデルがますます大規模化・複雑化する中で、計算リソースの効率を最大化するための必然的な進化と言えます。

メモリ容量と帯域幅の限界への挑戦

Rubin CPXがGDDR7メモリを採用し、デュアルラック構成で150TBという巨大なメモリ容量を実現したことは、LLMが扱うコンテキストウィンドウの拡大というトレンドを強く意識したものです。モデルがより多くの情報を一度に処理できるようになれば、より高度で文脈を理解した応答が可能になります。これは、AIの応用範囲をさらに広げる鍵となります。

今後のAI開発競争の行方

NVIDIAの継続的な技術革新は、AIハードウェア市場における同社の支配的な地位をさらに強固なものにするでしょう。しかし、このような高性能インフラの登場は、その開発・導入コストも相当なものになると予想されます。今後は、NVIDIAのような大手だけでなく、より多様なプレイヤーが、特定のタスクに特化したソリューションや、オープンソースハードウェアなどを駆使して、この分野に参入してくる可能性も考えられます。AI開発競争は、ハードウェアの進化と、それをいかに効率的に活用するかのソフトウェア・アーキテクチャの進化が、今後も両輪となって進んでいくと予想されます。

画像: AIによる生成