← 返回部落格首頁

AI 伺服器挑戰賽:大規模效能測試

為何新一代人工智慧架構需要專為其設計的功率測試系統 

人工智慧通常被描繪成一則關於運算技術進步的故事。 F更快的 GPU、更高密度的加速器,以及更先進的製程節點。但每項 AI 工作負載背後,最根本的限制在於功耗。 

(圖 1:AI 伺服器市場,資料來源:Grand View Research

隨著 AI 伺服器規模不斷擴大以滿足資料中心的需求,供電系統正逐漸成為最關鍵且最複雜的工程挑戰之一,並對半導體測試產生深遠影響。供電與量測已不再是測試流程中的次要步驟。如今,在極高電流、快速瞬變、不斷演進的電壓架構以及嚴苛的效率容差要求驅動下,這些已成為明確的技術要求。  

AI 加速器在極低電壓下運作,同時卻需要前所未有的高電流。這種組合從根本上改變了裝置在負載下的行為模式,以及在測試過程中必須如何進行量測、壓力測試與驗證。 以功率為核心的測試系統正逐漸成為具有戰略重要性的基礎設施,用於實現快速且可擴展的驗證;諸如電流處理能力、效率及瞬態響應等參數,如今已直接納入測試要求之中。這反映出一個現實:功率行為已成為決定良率、可靠性及系統級性能的首要因素。 

AI 伺服器堆疊內部 

現代人工智慧伺服器仰賴多階段電源轉換架構,以將電網中的能源高效輸送至GPU 等高功率加速器。 電力會經過多個高壓交流-直流(AC-DC)及直流-直流(DC-DC)轉換階段進行降壓,這些階段均針對效率、功率密度及可靠性進行了優化。隨著 AI 工作負載持續擴展,這些架構正朝著更高的分配電壓與更少的轉換階段演進,以減少損耗、簡化供電網路,並支援不斷增長的機架級電力需求。 

每個階段都會引入不同類型的功率元件,包括矽、碳化矽和氮化鎵,每種元件都具備獨特的電氣與熱特性。在最後一階段(最接近 GPU 的位置),功率密度達到峰值,測試要求也變得最為嚴苛。 

為何人工智慧驅動裝置的測試方式有所不同 

這些裝置運作於挑戰傳統測試假設的系統中。這類裝置包括 DrMOS、智慧功率級以及日益整合化的功率模組。在負載點附近,智慧功率級整合了閘極驅動器和功率元件,以將寄生效應降至最低並提升效率。單一的高效能 GPU 所使用的 DrMOS 數量,可能比典型的 CPU 多出一個數量級。

隨著封裝複雜度的增加,對更周詳的測試策略的需求也隨之提升。 在從單一晶片過渡到小晶片(chiplets)的過程中,傳統的測試方法未必能直接沿用,因為測試 IP 現已分散於多個晶片之上,甚至在某些情況下,還橫跨不同的設計團隊或公司。這種分散化現象要求我們更明確地界定各階段(晶片、橋接器、中介層、基板及堆疊)必須測試的內容,以及適用於各範圍的標準或技術。  

對工程師而言,這些限制因素的交織形成了一場完美風暴。 超低 RDS(on)值必須精確測量,同時還需驅動數十 安培的電流 ,同時避免裝置過熱。在此電流水準下,毫伏級的測量誤差將轉化為顯著的功率損耗與熱影響。 誤差容許範圍 極小 微乎其微, ,若測量精度不足,熱效應便極易導致結果失真 過慢 與此同時,吞吐量必須 維持 維持,並控制成本。 其他 此外諸如雜訊、接地偏移及寄生效應(這些效應在高電流水平下會日益顯著)等其他因素,可能進一步影響測量精度。密集的元件封裝、多組並聯接點以及共用接地路徑,都加劇了這項挑戰,使得測試 環境本身 成為潛在的誤差來源。 

為什麼 RDS(on) 測試越來越難 

隨著電流增加,RDS(on) 的測量對溫度變得更加敏感。較長的測試脈衝或較慢的上升時間會導致元件產生自熱效應,從而使測量結果產生偏差並降低重複性。為了在測試過程中控制這些影響,需要使用短暫且高電流的脈衝——其持續時間需足夠長以捕捉有意義的電氣行為,同時又需足夠短以避免可能導致結果失真的自熱效應。  

這些因素對測試儀器提出了新的要求:必須具備在精確且短暫的時間內提供並維持大電流的能力;擁有寬廣的類比頻寬以支援快速瞬變;以及嚴格的時序控制,以確保跨地點與系統的測量結果具有重複性。若缺乏這些能力,製造商將面臨必須在測量精度與吞吐量之間做出取捨的風險,反之亦然。 

從分立元件到整合模組  

電源供應商也正朝向採用更大、更整合的電源模組發展,將多個相位整合至單一封裝中。這些裝置雖簡化了系統設計,卻也使測試流程更加複雜。例如,許多製造商現在會在智慧電源級或元件層級測試 RDS(on) 及相關參數,在整合至更高階模組後再次進行測試,有時還會施加延長的應力或老化測試條件,以符合嚴格的人工智慧認證要求。 

此多插片測試結構考量了故障的成本。即使早期測試會增加複雜度,報廢一個完全整合的功率模組所產生的成本,遠比及早篩選更高。 

對測試架構與方法論的啟示 

這些複雜的裝置層級需求,對測試系統的架構設計產生了實質性的影響。舉例來說,若儀器無法在負載下,同時於所有活躍通道維持快速的瞬態響應與穩定的調控,僅憑高通道密度是遠遠不夠的。 在高電流情境下,許多傳統平台會降低有效通道數或脈衝持續時間,從而降低吞吐量並增加測試成本。隨著電流水準與測試點數增加,序列化與智慧型功率多工技術已成為不可或缺的解決方案。先進的測試方法不再是隨功率需求線性擴展測試硬體,而是透過快速、確定性的切換機制,在多個測試點間共享高效能資源,同時不犧牲測量精度。 關鍵在於,測試方法必須精準捕捉實際功率行為,同時將測試系統本身引入的熱效應與電氣干擾降至最低。諸如脈衝寬度、上升/下降速率、接地策略及測量時序等要素,必須預先設計到平台中,而非臨時應變處理。 

以功率為核心的測試系統作為一項具競爭力的產品類別 

這些壓力正在重塑測試領域的格局。對於人工智慧和雲端基礎設施,測試操作人員需要專為功率半導體驗證而設計的系統,而非對通用數位或混合訊號平台的改裝。在這些環境中,供電與量測是核心功能,而非輔助功能。 

測試系統必須支援更廣泛的運作範圍:上游更高電壓、下游更高電流,以及其間各階段更嚴格的精度要求。這項轉變正催生出一類以功率為核心的測試平台,作為傳統 SoC 和數位測試系統的補充。這些平台的核心功能在於處理大電流、快速瞬變以及精密測量。  

以功耗為核心的測試系統如何應對人工智慧的功耗挑戰 

專為人工智慧設計的電源測試系統,透過在高度整合的架構中結合大電流輸出、寬調幅帶寬及精密測量功能,有效解決人工智慧領域的特定挑戰。 在泰瑞達的 ETS-800 平台中,例如 SPU-8112 Power VI 等功率儀器,專為支援具有快速瞬態響應的短時高電流脈衝而設計。 

(圖 2:SPU-8112,來源:Teradyne)

SPU-8112 提供真正的多通道密度,同時在所有通道上維持高電流水準,可進行並行測試,且無需像傳統儀器那樣進行降額。高穩壓帶寬與快速上升/下降速率使測試脈衝能迅速穩定,從而將 RDS(on) 測量過程中的自熱效應降至最低。這不僅使特性分析更精確,同時也提升了測試吞吐量。 

為了在大規模測試中控制成本,可透過 SPMB電源多工器等元件來實現固態電源多工。  智慧型序列化技術,意味著高電流資源可在各測試站之間進行串聯與共享,同時將切換開銷降至最低。測量完整性得以妥善維持,且測試系統可避免不必要的硬體重複配置。 

針對極高電流的應用,包括大型或高度整合的功率模組,Teradyne 亦支援透過以下平台進行驗證: UltraFLEXplus等平台進行驗證,這些平台能夠應對涉及數百甚至數千安培的測試情境。這種靈活性使測試策略能隨著裝置架構的演進而調整,而非強行採用「一刀切」的解決方案。  

功耗現已成為測試要求,而不僅僅是設計上的限制 

隨著電源行為逐漸成為影響產量、可靠性及系統穩定性的關鍵因素,電源測試的要求正日益提前並深入至測試流程中。驗證工作不再僅限於最終測試或系統啟動階段,而是涵蓋晶圓級、封裝級及模組級的測試階段。  

展望未來,更高的機架密度與不斷演進的電壓架構,將持續提高功率元件驗證的門檻。  

(圖 3:HPC/AI 資料中心的 800V 商機,來源:泰瑞達)

人工智慧資料中心已開始朝高電壓直流配電方向發展,其中包括新興的 800V 直流架構。雖然此舉有望提升系統層級的效率,但也將在多個轉換階段帶來新的驗證挑戰,從高電壓前端裝置到處理器附近的密集型負載點電源級皆然。  

人工智慧的發展不僅取決於先進的運算晶片,更仰賴可靠且高效的供電系統,以及在量產規模下驗證供電能力的能力。精準的大電流測量、具備熱管理意識的測試策略,以及可擴展的吞吐量,已不再是小眾需求,而是建構下一代人工智慧基礎設施的基石。 

 

Aik-Moh Ng 是泰瑞達(Teradyne)類比電源測試產品的產品經理。憑藉在自動化測試設備產業逾20年的豐富經驗,他在制定行銷 策略,並 確保明確的價值主張與產品定位方面發揮了關鍵作用。在擔任產品經理之前, Aik-Moh 曾擔任過多項職務,包括現場產品專家與資深工程師。 艾克-Moh 持有曼徹斯特大學電氣與電子工程理學士學位。 


訂閱泰瑞達部落格