AI 伺服器挑戰賽：大規模效能測試

為何新一代人工智慧架構需要專為其設計的功率測試系統

人工智慧通常被描繪成一則關於運算技術進步的故事。 F更快的 GPU、更高密度的加速器，以及更先進的製程節點。但每項 AI 工作負載背後，最根本的限制在於功耗。

（圖 1：AI 伺服器市場，資料來源：Grand View Research）

隨著 AI 伺服器規模不斷擴大以滿足資料中心的需求，供電系統正逐漸成為最關鍵且最複雜的工程挑戰之一，並對半導體測試產生深遠影響。供電與量測已不再是測試流程中的次要步驟。如今，在極高電流、快速瞬變、不斷演進的電壓架構以及嚴苛的效率容差要求驅動下，這些已成為明確的技術要求。

AI 加速器在極低電壓下運作，同時卻需要前所未有的高電流。這種組合從根本上改變了裝置在負載下的行為模式，以及在測試過程中必須如何進行量測、壓力測試與驗證。以功率為核心的測試系統正逐漸成為具有戰略重要性的基礎設施，用於實現快速且可擴展的驗證；諸如電流處理能力、效率及瞬態響應等參數，如今已直接納入測試要求之中。這反映出一個現實：功率行為已成為決定良率、可靠性及系統級性能的首要因素。

我AI 伺服器堆疊內部

現代人工智慧伺服器仰賴多階段電源轉換架構，以將電網中的能源高效輸送至GPU 等高功率加速器。電力會經過多個高壓交流-直流（AC-DC）及直流-直流（DC-DC）轉換階段進行降壓，這些階段均針對效率、功率密度及可靠性進行了優化。隨著 AI 工作負載持續擴展，這些架構正朝著更高的分配電壓與更少的轉換階段演進，以減少損耗、簡化供電網路，並支援不斷增長的機架級電力需求。

每個階段都會引入不同類型的功率元件，包括矽、碳化矽和氮化鎵，每種元件都具備獨特的電氣與熱特性。在最後一階段（最接近 GPU 的位置），功率密度達到峰值，測試要求也變得最為嚴苛。

為何人工智慧驅動裝置的測試方式有所不同

這些裝置運作於挑戰傳統測試假設的系統中。這類裝置包括 DrMOS、智慧功率級以及日益整合化的功率模組。在負載點附近，智慧功率級整合了閘極驅動器和功率元件，以將寄生效應降至最低並提升效率。單一的高效能 GPU 所使用的 DrMOS 數量，可能比典型的 CPU 多出一個數量級。

隨著封裝複雜度的增加，對更周詳的測試策略的需求也隨之提升。在從單一晶片過渡到小晶片（chiplets）的過程中，傳統的測試方法未必能直接沿用，因為測試 IP 現已分散於多個晶片之上，甚至在某些情況下，還橫跨不同的設計團隊或公司。這種分散化現象要求我們更明確地界定各階段（晶片、橋接器、中介層、基板及堆疊）必須測試的內容，以及適用於各範圍的標準或技術。

對工程師而言，這些限制因素的交織形成了一場完美風暴。超低 RDS(on）值必須精確測量，同時還需驅動數十安培的電流，同時避免裝置過熱。在此電流水準下，毫伏級的測量誤差將轉化為顯著的功率損耗與熱影響。誤差容許範圍極小微乎其微，，若測量精度不足，熱效應便極易導致結果失真過慢。與此同時，吞吐量必須維持維持，並控制成本。其他此外諸如雜訊、接地偏移及寄生效應（這些效應在高電流水平下會日益顯著）等其他因素，可能進一步影響測量精度。密集的元件封裝、多組並聯接點以及共用接地路徑，都加劇了這項挑戰，使得測試環境本身成為潛在的誤差來源。

為什麼 RDS(on) 測試越來越難

隨著電流增加，RDS(on) 的測量對溫度變得更加敏感。較長的測試脈衝或較慢的上升時間會導致元件產生自熱效應，從而使測量結果產生偏差並降低重複性。為了在測試過程中控制這些影響，需要使用短暫且高電流的脈衝——其持續時間需足夠長以捕捉有意義的電氣行為，同時又需足夠短以避免可能導致結果失真的自熱效應。

這些因素對測試儀器提出了新的要求：必須具備在精確且短暫的時間內提供並維持大電流的能力；擁有寬廣的類比頻寬以支援快速瞬變；以及嚴格的時序控制，以確保跨地點與系統的測量結果具有重複性。若缺乏這些能力，製造商將面臨必須在測量精度與吞吐量之間做出取捨的風險，反之亦然。

從分立元件到整合模組

電源供應商也正朝向採用更大、更整合的電源模組發展，將多個相位整合至單一封裝中。這些裝置雖簡化了系統設計，卻也使測試流程更加複雜。例如，許多製造商現在會在智慧電源級或元件層級測試 RDS(on) 及相關參數，在整合至更高階模組後再次進行測試，有時還會施加延長的應力或老化測試條件，以符合嚴格的人工智慧認證要求。

此多插片測試結構考量了故障的成本。即使早期測試會增加複雜度，報廢一個完全整合的功率模組所產生的成本，遠比及早篩選更高。

對測試架構與方法論的啟示

這些複雜的裝置層級需求，對測試系統的架構設計產生了實質性的影響。舉例來說，若儀器無法在負載下，同時於所有活躍通道維持快速的瞬態響應與穩定的調控，僅憑高通道密度是遠遠不夠的。在高電流情境下，許多傳統平台會降低有效通道數或脈衝持續時間，從而降低吞吐量並增加測試成本。隨著電流水準與測試點數增加，序列化與智慧型功率多工技術已成為不可或缺的解決方案。先進的測試方法不再是隨功率需求線性擴展測試硬體，而是透過快速、確定性的切換機制，在多個測試點間共享高效能資源，同時不犧牲測量精度。關鍵在於，測試方法必須精準捕捉實際功率行為，同時將測試系統本身引入的熱效應與電氣干擾降至最低。諸如脈衝寬度、上升/下降速率、接地策略及測量時序等要素，必須預先設計到平台中，而非臨時應變處理。

以功率為核心的測試系統作為一項具競爭力的產品類別

這些壓力正在重塑測試領域的格局。對於人工智慧和雲端基礎設施，測試操作人員需要專為功率半導體驗證而設計的系統，而非對通用數位或混合訊號平台的改裝。在這些環境中，供電與量測是核心功能，而非輔助功能。

測試系統必須支援更廣泛的運作範圍：上游更高電壓、下游更高電流，以及其間各階段更嚴格的精度要求。這項轉變正催生出一類以功率為核心的測試平台，作為傳統 SoC 和數位測試系統的補充。這些平台的核心功能在於處理大電流、快速瞬變以及精密測量。

以功耗為核心的測試系統如何應對人工智慧的功耗挑戰

專為人工智慧設計的電源測試系統，透過在高度整合的架構中結合大電流輸出、寬調幅帶寬及精密測量功能，有效解決人工智慧領域的特定挑戰。在泰瑞達的 ETS-800 平台中，例如 SPU-8112 Power VI 等功率儀器，專為支援具有快速瞬態響應的短時高電流脈衝而設計。

（圖 2：SPU-8112，來源：Teradyne）

SPU-8112 提供真正的多通道密度，同時在所有通道上維持高電流水準，可進行並行測試，且無需像傳統儀器那樣進行降額。高穩壓帶寬與快速上升/下降速率使測試脈衝能迅速穩定，從而將 RDS(on) 測量過程中的自熱效應降至最低。這不僅使特性分析更精確，同時也提升了測試吞吐量。

為了在大規模測試中控制成本，可透過 SPMB電源多工器等元件來實現固態電源多工。這智慧型序列化技術，意味著高電流資源可在各測試站之間進行串聯與共享，同時將切換開銷降至最低。測量完整性得以妥善維持，且測試系統可避免不必要的硬體重複配置。

針對極高電流的應用，包括大型或高度整合的功率模組，Teradyne 亦支援透過以下平台進行驗證： UltraFLEXplus等平台進行驗證，這些平台能夠應對涉及數百甚至數千安培的測試情境。這種靈活性使測試策略能隨著裝置架構的演進而調整，而非強行採用「一刀切」的解決方案。

功耗現已成為測試要求，而不僅僅是設計上的限制

隨著電源行為逐漸成為影響產量、可靠性及系統穩定性的關鍵因素，電源測試的要求正日益提前並深入至測試流程中。驗證工作不再僅限於最終測試或系統啟動階段，而是涵蓋晶圓級、封裝級及模組級的測試階段。

展望未來，更高的機架密度與不斷演進的電壓架構，將持續提高功率元件驗證的門檻。

（圖 3：HPC/AI 資料中心的 800V 商機，來源：泰瑞達）

人工智慧資料中心已開始朝高電壓直流配電方向發展，其中包括新興的 800V 直流架構。雖然此舉有望提升系統層級的效率，但也將在多個轉換階段帶來新的驗證挑戰，從高電壓前端裝置到處理器附近的密集型負載點電源級皆然。

人工智慧的發展不僅取決於先進的運算晶片，更仰賴可靠且高效的供電系統，以及在量產規模下驗證供電能力的能力。精準的大電流測量、具備熱管理意識的測試策略，以及可擴展的吞吐量，已不再是小眾需求，而是建構下一代人工智慧基礎設施的基石。

Aik-Moh Ng 是泰瑞達（Teradyne）類比電源測試產品的產品經理。憑藉在自動化測試設備產業逾20年的豐富經驗，他在制定行銷策略，並確保明確的價值主張與產品定位方面發揮了關鍵作用。在擔任產品經理之前， Aik-Moh 曾擔任過多項職務，包括現場產品專家與資深工程師。艾克-Moh 持有曼徹斯特大學電氣與電子工程理學士學位。

為何新一代人工智慧架構需要專為其設計的功率測試系統

訂閱泰瑞達部落格