NVIDIA NIMでDeepSeek-R1を利用可能に、エージェント型AIシステムに必要な高い効率性を確保

アットダイム 3 週 前
Facebook Icon Twitter Icon

NVIDIAは、最先端のリーズニング機能を備えたオープン モデルであるDeepSeek-R1 が、NVIDIA NIM で利用可能になったことを明らかにした。

DeepSeek-R1 は、直接的な応答を提供するのではなく、1 つのクエリに対して複数の推論パスを実行し、思考の連鎖、コンセンサス、および検索方法を実行して最適な回答を生成。NVIDIA NIM を使用することで、企業は DeepSeek-R1 を簡単に展開でき、エージェント型 AI システムに必要な高い効率性を確保できる。

本件に関する記事が同社ブログに掲載されたので、その概要をお伝えする。

NVIDIA NIMにより企業は DeepSeek-R1 を簡単に展開、高い効率性を確保できる

DeepSeek-R1 は、最先端のリーズニング機能を備えたオープン モデルだ。DeepSeek-R1 のようなリーズニング モデルは、直接的な応答を提供するのではなく、1 つのクエリに対して複数の推論パスを実行し、思考の連鎖、コンセンサス、および検索方法を実行して最適な回答を生成する。

この一連の推論パスを実行すること、つまり、推論を用いて最適な回答に到達することは、テストタイム スケーリング (Test-time Scaling) と呼ばれる。

DeepSeek-R1 はこのスケーリング則の絶好の例であり、エージェント型 AI 推論の要求に対してアクセラレーテッド コンピューティングが不可欠である理由を示している。

モデルが問題を反復的に「思考」できるようになると、より多くの出力トークンが作成され、生成サイクルが長くなるため、モデルの品質は継続的に向上する。

リアルタイム推論と、DeepSeek-R1 などのリーズニング モデルからの応答の高品質化をどちらも実現するには、大量のテスト時の計算が不可欠であり、より大規模な推論の展開が必要になる。

■6710 億パラメータの DeepSeek-R1 モデルをNVIDIA NIM マイクロサービスのプレビュー版として提供

R1 は論理推論、リーズニング、数学、コーディング、言語理解を必要とするタスクでトップクラスの精度を実現すると同時に、高い推論効率も実現する。

開発者がこれらの機能を安全に試行して独自の専用エージェントを構築できるように、6710 億パラメータの DeepSeek-R1 モデルを現在、build.nvidia.com にて NVIDIA NIM マイクロサービスのプレビュー版として提供している。

DeepSeek-R1 NIM マイクロサービスは、単一の NVIDIA HGX H200 システムで最大 3872 トークン/秒を生成できる。

開発者はアプリケーション プログラミング インターフェイス (API) 使ってテストや試用を行うことができ、今後、NVIDIA AI Enterprise ソフトウェア プラットフォームの一部として、ダウンロード可能な NIM マイクロサービスが提供される予定だ。

DeepSeek-R1 NIM マイクロサービスは業界標準の API をサポートしているため、シンプルな展開が可能。企業は自社で選んだアクセラレーテッド コンピューティング インフラ上で NIM マイクロサービスを実行することで、セキュリティとデータ プライバシーを最大限に高めることができる。

NVIDIA NeMo ソフトウェアと NVIDIA AI Foundry を併用することで、企業は専門的な AI エージェント向けにカスタマイズされた DeepSeek-R1 NIM マイクロサービスの作成にも対応する。

DeepSeek-R1:テストタイム スケーリングの絶好の例

DeepSeek-R1 は、大規模な Mixture of Experts (MoE) モデルだ。他の多くの一般的なオープンソース LLM の 10 倍にあたる、6,710 億という驚異的なパラメータが組み込まれており、12万8000 トークンという大規模な入力コンテキスト長をサポートしている。

また、このモデルはレイヤーごとに非常に多くのエキスパートが使用されている。R1の各レイヤーに256のエキスパートが含まれ、各トークンは評価のために8つの別々のエキスパートに並行して振り分けられる。

R1 のリアルタイムの回答には、推論のためにすべてのエキスパートにプロンプト トークンを振り分けるための、高帯域幅かつ低遅延の通信で接続された高い演算性能を持つ多数の GPU が必要になる。

NVIDIA NIM マイクロサービスで提供されているソフトウェア最適化と共に使うことで、NVLink と NVLink Switch を用いて接続された 8 基の H200 GPU を備えた単一のサーバーで、6710 億パラメータの DeepSeek-R1 モデル全体を最大3872トークン/秒で実行できる。

このスループットは、すべてのレイヤーで NVIDIA Hopper アーキテクチャの FP8 Transformer Engine を使用し、MoE のエキスパートの通信に 900 GB/秒の NVLink 帯域幅を使用することで実現している。

リアルタイム推論では、GPU の1秒あたりの浮動小数点演算 (FLOPS) における最大限の性能を引き出すことが不可欠だ。次世代の NVIDIA Blackwell アーキテクチャは、最大 20 ペタフロップスの FP4 ピーク演算性能を備えた第 5 世代 Tensor コアと推論用に特別に最適化された 72 GPU NVLink ドメインにより、DeepSeek-R1 などのリーズニング モデルのテストタイム スケーリングに大幅な向上をもたらすだろう。

■DeepSeek-R1 NIM マイクロサービスを今すぐ使ってみる

開発者は、build.nvidia.com(https://build.nvidia.com/explore/discover) で現在提供中の DeepSeek-R1 NIM マイクロサービス(https://build.nvidia.com/deepseek-ai/deepseek-r1)を今すぐ体験できる。

<動作状況を動画でチェック>

NVIDIA NIM を使用することで、企業は DeepSeek-R1 を簡単に展開でき、エージェント型 AI システムに必要な高い効率性を確保できる。

◎ソフトウェア製品情報に関する利用規約はこちらから。
https://www.nvidia.com/en-eu/about-nvidia/terms-of-service/

関連情報
https://blogs.nvidia.co.jp/blog/deepseek-r1-nim-microservice/

構成/清水眞希

もっと詳しく