「AIサーバー・チャレンジ：大規模環境での性能検証」

次世代AIアーキテクチャに専用設計の電力テストシステムが求められる理由

人工知能は、たいていの場合、コンピューティング技術の進歩という文脈で語られる。 Fより高速なGPU、高密度なアクセラレータ、そして先進的なプロセスノード。しかし、あらゆるAIワークロードの背後にある最も根本的な制約は、電力である。

（図1：AIサーバー市場、出典：Grand View Research）

データセンターの需要に応えるべくAIサーバーが拡張されるにつれ、電力供給は最も重要かつ複雑な技術的課題の一つとなりつつあり、半導体テストにも継続的な影響を及ぼしています。もはや、電力供給と測定がテストフローにおける付随的な工程であるという時代は終わりました。今日では、極大電流、高速過渡現象、進化する電圧アーキテクチャ、そして厳しい効率マージンといった要因により、これらは明確な要件となっています。

AIアクセラレータは、極めて低い電圧で動作する一方で、かつてないレベルの電流を必要とします。この組み合わせにより、負荷下でのデバイスの挙動や、テスト中の測定、負荷試験、検証の方法が根本的に変化しています。電力を重視したテストシステムは、高速かつスケーラブルな検証を行うための戦略的に重要なインフラとして台頭しており、電流処理能力、効率、過渡応答といったパラメータが、今やテスト要件に直接盛り込まれるようになっています。これは、電力特性が歩留まり、信頼性、およびシステムレベルの性能を決定づける第一の要因となっているという現実を反映しています。

私AIサーバースタック内部

最新のAIサーバーは、電力網からGPUなどの高出力アクセラレータへ効率的に電力を供給するために、多段式電力変換アーキテクチャを採用しています。電力は、効率、電力密度、信頼性を最適化した複数の高電圧AC-DCおよびDC-DC変換ステージを経て降圧されます。AIワークロードの規模が拡大し続ける中、これらのアーキテクチャは、損失の低減、電力供給ネットワークの簡素化、そして増え続けるラックレベルの電力需要への対応を目的として、より高い分配電圧とより少ない変換ステージへと進化しています。

各段階では、シリコン、炭化ケイ素、窒化ガリウムなど、それぞれ独自の電気的・熱的特性を持つさまざまな種類のパワーデバイスが導入されます。最終段階（GPUに最も近い部分）では、電力密度が最大となり、試験要件も最も厳しくなります。

AI搭載デバイスのテストにおいて、何が異なるのか

これらのデバイスは、従来のテストの前提条件を覆すようなシステム環境で動作します。これには、DrMOS、スマートパワーステージ、そして高度に集積化が進むパワーモジュールなどが含まれます。負荷点付近では、スマートパワーステージがゲートドライバとパワーデバイスを統合することで、寄生成分を最小限に抑え、効率を向上させています。高性能なGPU 1基だけで、一般的なCPUに比べて1桁多い数のDrMOSが使用されることもあります。

パッケージの複雑さが増すにつれ、より綿密なテスト戦略の必要性も高まっています。モノリシックダイからチプレットへの移行に伴い、テストIPが複数のダイに分散し、場合によっては異なる設計チームや企業にまたがるようになったため、従来から確立されたテスト手法が必ずしもそのまま適用できるとは限りません。このような分散化により、各段階（ダイ、ブリッジ、インターポーザー、基板、スタック）で何をテストすべきか、またそれぞれの範囲にどの規格や手法を適用すべきかを、より明確に定義することが求められます。

エンジニアにとって、こうした制約の重なりは最悪の事態を招く。超低 RDS(オン）値を正確に測定しつつ、数十アンペア級の電流を流しながらを流しながら、デバイスを過熱させずに。このレベルでは、ミリボルト単位の測定誤差が、無視できない電力損失や熱的影響につながります。誤差の許容範囲は誤差の許容範囲はごくわずかです、、測定精度が不十分だと、熱の影響によって結果が容易に歪められてしまう。遅すぎると。同時に、スループットは維持されなければなりません維持されなければならず、コストを抑えつつ。さらに騒音、グランドシフト、寄生効果（これらは高電流レベルで顕著になる）といったノイズ、グランドシフト、および（大電流域で顕著になる）寄生効果といった要因が、測定精度をさらに悪化させる可能性があります。デバイスの高密度実装、複数の並列コンタクト、および共有グランド経路は、この課題をさらに深刻化させ、テスト環境そのものがが潜在的な誤差源となります。

RDS(on)テストが難しくなっている理由

電流が増加するにつれて、RDS(on)の測定は温度の影響を受けやすくなります。テストパルスの長さが長かったり、立ち上がり時間が遅かったりすると、デバイスが自己発熱し、測定結果が歪み、再現性が低下します。テスト中にこれらの影響を抑えるためには、短時間かつ大電流のパルスが必要です。つまり、有意義な電気的挙動を捉えるのに十分な長さでありながら、結果を歪める可能性のある自己発熱を避けるために十分に短いパルスである必要があります。

これらの要因により、試験装置には新たな要件が課せられています。具体的には、高精度かつ短時間での大電流の供給・維持能力、高速過渡現象に対応するための広いアナログ帯域幅、そして拠点やシステムをまたいで再現性のある結果を保証するための厳密なタイミング制御が求められます。これらの機能がなければ、メーカーは測定精度とスループットのどちらか一方を犠牲にするリスクを負うことになります。

個別デバイスから統合モジュールまで

電源サプライヤー各社もまた、多数のフェーズを単一のパッケージに統合した、より大型で高度に統合されたパワーモジュールへの移行を進めています。こうしたデバイスはシステム設計を簡素化しますが、テストフローは複雑化します。例えば、多くのメーカーでは現在、RDS(on)や関連パラメータのテストを、スマートパワーステージまたはデバイスレベルで実施し、さらに上位モジュールへの統合後も再度テストを行っています。また、厳格なAI認定要件を満たすため、過酷なストレス試験やバーンイン試験の条件下でテストを行う場合もあります。

この多点挿入テスト構造は、故障によるコストを考慮したものです。たとえ初期テストが複雑さを増すとしても、完全に組み立てられたパワーモジュールを廃棄するコストは、早期にスクリーニングを行うコストよりもはるかに高額です。

テストアーキテクチャおよびテスト手法への示唆

こうした複雑なデバイスレベルの要件は、テストシステムのアーキテクチャ設計に実際の影響を及ぼします。例えば、計測器が負荷下において、かつすべてのアクティブなチャネルで同時に高速な過渡応答と安定した電圧調整を維持できない場合、チャネル密度が高いだけでは不十分です。大電流のシナリオでは、多くの従来のプラットフォームは有効チャンネル数やパルス幅を削減するため、スループットが低下し、テストコストが増加します。電流レベルと測定ポイント数が増加するにつれ、シリアル化とインテリジェントな電力多重化が不可欠になりつつあります。先進的なテスト手法では、電力需要に応じてテストハードウェアを直線的に拡張するのではなく、高速かつ決定論的なスイッチングに依存し、精度を犠牲にすることなく複数の測定ポイント間で高性能リソースを共有します。極めて重要な点として、テスト手法は、テストシステム自体がもたらす熱的および電気的なアーチファクトを最小限に抑えつつ、実際の電力挙動を正確に捕捉しなければなりません。パルス幅、スルーレート、接地戦略、測定タイミングといった要素は、その場しのぎで管理するのではなく、プラットフォームに組み込んで設計する必要があります。

競争力のあるカテゴリーとしての電力特化型テストシステム

こうした圧力により、テスト環境は様変わりしつつあります。AIやクラウドインフラストラクチャの分野では、テスト運用者は、汎用のデジタルやミックスドシグナル・プラットフォームを流用したものではなく、パワー半導体の検証に特化したシステムを必要としています。こうした環境において、電力供給と測定は、単なる付帯機能ではなく、第一級の機能として位置づけられています。

テストシステムは、より広範な動作範囲に対応する必要があります。具体的には、上流側での高電圧、下流側での大電流、そしてその間のあらゆる領域におけるより厳格な精度要件です。こうした変化に伴い、従来のSoCおよびデジタル・テスト・システムを補完する、電力特化型のテスト・プラットフォームという独自のカテゴリーが登場しています。これらのプラットフォームは、大電流、高速過渡現象、および高精度測定を中核機能として処理できるよう設計されています。

電力効率に重点を置いたテストシステムが、AIの電力課題にどう対処するか

専用設計の電力テストシステムは、高電流供給、広い調整帯域幅、および高精度測定機能を緊密に統合されたアーキテクチャに組み合わせることで、AI特有の課題に対処します。テラダインの ETS-800 プラットフォームでは、例えば SPU-8112 Power VI などの電力計測器は、高速な過渡応答を伴う短時間の高電流パルスをサポートするように特別に設計されています。

（図2：SPU-8112、出典：Teradyne）

SPU-8112は、全チャネルで高電流レベルを維持しながら真のマルチチャネル密度を実現し、従来の計測器でよく見られる定格引き下げを伴うことなく並列テストを可能にします。高いレギュレーション帯域幅と高速なスルーレートにより、テストパルスは迅速に定常状態に達し、RDS(on)測定時の自己発熱を最小限に抑えます。これにより、特性評価の精度が向上すると同時に、スループットも向上します。

大規模なテストのコストを管理するために、SPMBパワーMUXなどのコンポーネントを用いて、ソリッドステート・パワー・マルチプレクシングを実装することができます。これにより、このインテリジェントなシリアル化により、大電流リソースをグループ化してサイト間で共有でき、スイッチングのオーバーヘッドを最小限に抑えることができます。測定の整合性は十分に維持され、テストシステムではハードウェアの不要な重複を回避できます。

大型または高度に集積化されたパワーモジュールなど、非常に大電流を必要とする用途において、テラダインは以下のようなプラットフォームを用いた検証もサポートしています。 UltraFLEXplusなどのプラットフォームを用いた検証もサポートしており、数百アンペアから数千アンペアに及ぶテストシナリオにも対応可能です。この柔軟性により、画一的なアプローチを強いることなく、デバイスのアーキテクチャの進化に合わせてテスト戦略を適応させることが可能になります。

パワーはもはや単なる設計上の制約ではなく、テスト要件となっています

電力特性が歩留まり、信頼性、およびシステムの安定性を左右する要因となるにつれ、電力試験の要件はテストフローのより早い段階へと前倒しされ、その範囲もより広範なものとなっています。検証は最終試験やシステムの起動段階にとどまらず、ウェハーレベル、パッケージレベル、モジュールレベルの各試験段階に及んでいます。

今後、ラック密度の向上や電圧アーキテクチャの進化に伴い、パワーデバイスの検証における要求水準はさらに高まっていくでしょう。

電力データセンターの図

（図3：インフィニオンによる800Vアーキテクチャの実装、出典：eeNews Europe）

AIデータセンターでは、新たな800V DCアーキテクチャを含め、すでに高電圧DC配電への移行が進んでいます。これによりシステム全体の効率向上が期待される一方で、高電圧フロントエンドデバイスからプロセッサ付近の高密度ポイント・オブ・ロード電源ステージに至るまで、複数の変換段階にわたって新たな検証上の課題が生じることになります。

AIの成長は、高度な演算用半導体だけにかかっているわけではありません。信頼性が高く効率的な電力供給、そして量産規模での電力検証能力も不可欠です。正確な大電流測定、熱特性を考慮したテスト戦略、そしてスケーラブルなスループットは、もはやニッチな要件ではありません。これらは、次世代のAIインフラを実現するための基盤となるものです。

Aik-Moh Ng は、テラダインのアナログ・パワー・テスト製品担当プロダクトマネージャーです。自動試験装置業界で20年以上の経験を持ち、マーケティング戦略の策定において重要な役割を果たしてきました戦略の策定、明確な価値提案と製品ポジショニングの確立において重要な役割を果たしてきました。プロダクトマネージャーに就任する前は、アイク・モ・ング・モーは、フィールド・プロダクト・スペシャリストやシニア・エンジニアなど、様々な役職を歴任してきました。アイク・モフは、マンチェスター大学にて電気電子工学の理学士号を取得しています。

次世代AIアーキテクチャに専用設計の電力テストシステムが求められる理由

テラダインのブログを購読する