AI 서버 챌린지: 대규모 환경에서 성능 검증

차세대 AI 아키텍처에 전용 전력 테스트 시스템이 필요한 이유

인공지능은 대개 컴퓨팅 기술의 발전이라는 맥락에서 다루어집니다. F더 빠른 GPU, 더 고밀도화된 가속기, 그리고 첨단 공정 노드. 하지만 모든 AI 워크로드의 이면에는 전력이 가장 근본적인 제약 요소로 자리 잡고 있다.

(그림 1: AI 서버 시장, 출처: Grand View Research)

데이터센터의 수요를 충족하기 위해 AI 서버가 확장됨에 따라, 전력 공급은 반도체 테스트에 지속적인 영향을 미치는 가장 중요하고도 복잡한 공학적 과제 중 하나로 부상하고 있습니다. 더 이상 전력 공급 및 측정이 테스트 흐름에서 부수적인 단계라고 볼 수 없습니다. 오늘날 이는 극한의 전류 수준, 빠른 과도 현상, 진화하는 전압 아키텍처, 그리고 좁은 효율 마진에 의해 주도되는 명확한 요구 사항이 되었습니다.

AI 가속기는 극히 낮은 전압에서 작동하면서도 전례 없는 수준의 전류를 필요로 합니다. 이러한 조합은 부하 상태에서 장치의 동작 방식은 물론, 테스트 중 측정, 부하 테스트 및 검증 방식까지 근본적으로 변화시키고 있습니다. 전력 중심의 테스트 시스템은 전류 처리 능력, 효율성, 과도 응답과 같은 매개변수가 이제 테스트 요구 사항에 직접 명시됨에 따라, 신속하고 확장 가능한 검증을 위한 전략적으로 중요한 인프라로 부상하고 있습니다. 이는 전력 동작이 수율, 신뢰성 및 시스템 수준 성능의 가장 중요한 결정 요인이 되었음을 반영합니다.

나AI 서버 스택 내부

최신 AI 서버는전력망을 통해 공급되는 에너지를GPU와 같은 고전력 가속기에효율적으로 전달하기 위해 다단계 전력 변환 아키텍처를활용합니다. 전력은효율성, 전력 밀도 및 신뢰성을 최적화한여러고전압AC-DC 및DC-DC 변환 단계를거쳐 강압됩니다. AI 워크로드가 지속적으로 확장됨에 따라, 이러한 아키텍처는 손실을 줄이고 전력 공급 네트워크를 단순화하며끊임없이 증가하는랙 수준의 전력 수요를지원하기 위해 더 높은 분배 전압과 더 적은 변환 단계로 진화하고 있습니다.

각 단계에서는 실리콘, 실리콘 카바이드, 질화갈륨 등 서로 다른 종류의 전력 소자가 도입되며, 이들 각각은 고유한 전기적 및 열적 특성을 지닙니다. 최종 단계(GPU에 가장 가까운 단계)에서는 전력 밀도가 최고조에 달하며, 테스트 요구 사항도 가장 까다로워집니다.

AI 기반 기기를 테스트할 때 다른 점

이러한 소자들은 기존의 테스트 가정을 뒤엎는 시스템 환경에서 작동합니다. 여기에는 DrMOS, 스마트 파워 스테이지, 그리고 점차 통합되는 파워 모듈 등이 포함됩니다. 부하 지점 근처에서 스마트 파워 스테이지는 게이트 드라이버와 파워 소자를 통합하여 기생 성분을 최소화하고 효율을 높입니다.고성능 GPU 한 개는 일반적인 CPU보다 10배 이상 많은 DrMOS를 사용할 수 있습니다.

패키지의 복잡성이 증가함에 따라, 보다 신중한 테스트 전략의 필요성도 커지고 있습니다. 모놀리식 다이에서 치플릿으로 전환되는 과정에서, 테스트 IP가 이제 여러 다이에 분산되어 있고 경우에 따라서는 서로 다른 설계 팀이나 회사에 걸쳐 있기 때문에, 오랫동안 확립되어 온 테스트 방법을 항상 그대로 적용할 수 있는 것은 아닙니다. 이러한 분산 구조로 인해 다이, 브리지, 인터포저, 기판, 스택 등 각 단계에서 무엇을 테스트해야 하는지, 그리고 각 범위에 어떤 표준이나 기법을 적용해야 하는지에 대한 명확한 정의가 필요합니다.

엔지니어들에게 있어 이러한 제약 조건들의 복합적 작용은 최악의 상황을 초래한다. 초저 RDS(on) 값을 정확하게 측정해야 하는 동시에 수십 암페어의 전류를 장치가 과열되지 않도록. 이러한 수준에서는 밀리볼트 단위의 측정 오차도 상당한 전력 손실과 열적 영향으로 이어집니다. 오차 허용 범위는 오차 허용 범위는 극히 작습니다, 측정 오차 허용 범위는극히 좁으며,측정 오차가 너무 크면 열적 영향으로 인해 결과가 쉽게 왜곡될 수 있습니다. 느리다면. 동시에 처리량은 반드시 유지되어야 유지되어야 하며, 비용을 적절히 관리해야 합니다. 추가 소음, 접지 이동, 기생 효과(고전류 수준에서 점점 더 두드러짐)와 같은소음, 접지 이동, 기생 효과(고전류 수준에서 점점 더 두드러짐)와 같은 요인들은 측정 정확도를 더욱 복잡하게 만들 수 있습니다. 고밀도 디바이스 패키징, 다중 병렬 접점, 공유 접지 경로는 이러한 문제를 가중시켜 테스트 환경 자체를 잠재적인 오류 원인이 되게 합니다.

RDS(on) 테스트가 점점 더 어려워지는 이유는 무엇인가

전류가 증가함에 따라 RDS(on) 측정값은 온도에 더욱 민감해집니다. 테스트 펄스 길이가 길거나 상승 시간이 느리면 소자가 자체 발열하게 되어 측정 결과가 왜곡되고 재현성이 떨어집니다. 테스트 중 이러한 영향을 최소화하려면, 의미 있는 전기적 특성을 포착할 수 있을 만큼 충분히 길면서도 결과를 왜곡할 수 있는 자체 발열을 피할 수 있을 만큼 짧은, 고전류 펄스가 필요합니다.

이러한 요인들은 테스트 장비에 새로운 요구 사항을 제기합니다. 즉, 정밀하고 짧은 시간 동안 고전류를 공급하고 유지할 수 있는 능력, 빠른 과도 현상을 처리할 수 있는 넓은 아날로그 대역폭, 그리고 여러 현장과 시스템 전반에 걸쳐 재현 가능한 결과를 보장하기 위한 정밀한 타이밍 제어 기능이 필요합니다. 이러한 기능이 없다면, 제조업체는 측정 정확도를 처리량과 타협하거나 그 반대의 선택을 해야 할 위험에 처하게 됩니다.

개별 소자에서 통합 모듈까지

전원 공급업체들은 또한 여러 위상을 단일 패키지로 통합한, 더 크고 통합된 전원 모듈로 전환하고 있습니다. 이러한 장치는 시스템 설계를 단순화하지만 테스트 프로세스를 복잡하게 만듭니다. 예를 들어, 많은 제조업체들은 현재 스마트 파워 스테이지 또는 소자 수준에서 RDS(on) 및 관련 파라미터를 테스트하고, 이를 상위 레벨 모듈에 통합한 후 다시 테스트하며, 때로는 엄격한 AI 인증 요건을 충족하기 위해 연장된 스트레스 또는 번인 조건 하에서 테스트하기도 합니다.

이 다중 삽입 테스트 구조는 고장으로 인한 비용을 고려합니다. 초기 테스트가 복잡성을 더하더라도, 완전히 조립된 전력 모듈을 폐기하는 것은 초기 단계에서 선별하는 것보다 훨씬 더 많은 비용이 듭니다.

테스트 아키텍처 및 방법론에 대한 시사점

이러한 복잡한 디바이스 수준의 요구사항은 테스트 시스템의 아키텍처 설계에 실질적인 영향을 미칩니다. 예를 들어, 계측기가 부하 상태에서도 모든 활성 채널에 걸쳐 동시에 빠른 과도 응답과 안정적인 전압 조절을 유지할 수 없다면, 단순히 채널 밀도가 높다는 것만으로는 충분하지 않습니다. 고전류 시나리오에서 많은 기존 플랫폼은 유효 채널 수나 펄스 지속 시간을 줄임으로써 처리량을 감소시키고 테스트 비용을 증가시킵니다. 전류 레벨과 사이트 수가 증가함에 따라 직렬화 및 지능형 전력 다중화 기술이 필수적입니다. 전력 수요에 따라 테스트 하드웨어를 선형적으로 확장하는 대신, 첨단 테스트 방법론은 정확도를 저하시키지 않으면서도 여러 사이트에 걸쳐 고성능 리소스를 공유하기 위해 빠르고 결정론적인 스위칭에 의존합니다. 중요한 점은, 테스트 방법론이 실제 전력 동작을 정확히 포착하는 동시에 테스트 시스템 자체에서 발생하는 열적 및 전기적 아티팩트를 최소화해야 한다는 것입니다. 펄스 폭, 슬루 레이트, 접지 전략, 측정 타이밍과 같은 요소들은 임시방편으로 관리하기보다는 플랫폼 설계 단계에서 고려되어야 합니다.

경쟁 분야로서의 전력 중심 테스트 시스템

이러한 압박 요인들은 테스트 환경을 변화시키고 있습니다. AI 및 클라우드 인프라의 경우, 테스트 운영자들은 범용 디지털 또는 혼합 신호 플랫폼을 개조한 것이 아닌, 전력 반도체 검증 전용으로 설계된 시스템을 필요로 합니다. 이러한 환경에서 전력 공급 및 측정은 부가적인 기능이 아닌 핵심 기능으로 간주됩니다.

테스트 시스템은 더 넓은 작동 범위를 지원해야 합니다. 즉, 상류에서는 더 높은 전압, 하류에서는 더 높은 전류를 처리해야 하며, 그 사이의 모든 영역에서 더욱 엄격한 정확도 요구 사항을 충족해야 합니다. 이러한 변화로 인해 기존의 SoC 및 디지털 테스트 시스템을 보완하는, 전력 중심의 독자적인 테스트 플랫폼 카테고리가 등장하고 있습니다. 이러한 플랫폼은 고전류 처리, 고속 과도 현상 대응, 정밀 측정 기능을 핵심으로 설계되었습니다.

전력 효율에 중점을 둔 테스트 시스템이 AI의 전력 문제를 어떻게 해결하는가

전용 전력 테스트 시스템은 고전류 공급, 넓은 조정 대역폭, 정밀 측정 기능을 고도로 통합된 아키텍처 내에 결합함으로써 AI 특유의 과제를 해결합니다. 테라다인의 ETS-800 플랫폼의 경우, SPU-8112 Power VI 과 같은 전력 계측기는 빠른 과도 응답을 통해 짧고 고전류인 펄스를 지원하도록 특별히 설계되었습니다.

(그림 2: SPU-8112, 출처: Teradyne)

SPU-8112는 모든 채널에서 높은 전류 수준을 유지하면서 진정한 다중 채널 밀도를 제공하므로, 기존 계측기에서 흔히 발생하는 정격 저하 없이 병렬 테스트를 수행할 수 있습니다. 높은 조정 대역폭과 빠른 슬루 레이트 덕분에 테스트 펄스가 신속하게 안정화되어 RDS(on) 측정 시 자체 발열을 최소화합니다. 이를 통해 특성 분석의 정확도가 향상되고 처리량도 증가합니다.

대규모 테스트 비용을 관리하기 위해 SPMB파워 MUX와 같은 부품을 통해 솔리드 스테이트 전력 멀티플렉싱을 구현할 수 있습니다. 이는 이러한 지능형 직렬화 방식을 통해 고전류 리소스를 묶어 여러 사이트에서 공유할 수 있으며, 스위칭 오버헤드는 최소화됩니다. 측정 무결성이 효과적으로 유지되며, 테스트 시스템은 불필요한 하드웨어 중복을 피할 수 있습니다.

대형 또는 고집적 전력 모듈을 포함한 초고전류 응용 분야의 경우, 테라다인은 다음과 같은 플랫폼을 활용한 검증도 지원합니다. UltraFLEXplus와같은 플랫폼을 통한 검증도 지원합니다. 이러한 유연성 덕분에 일률적인 접근 방식을 강요하지 않고도 테스트 전략을 디바이스 아키텍처의 발전과 함께 진화시킬 수 있습니다.

이제 전력은 단순한 설계 제약 조건이 아니라 테스트 요건이 되었습니다

전력 동작이 수율, 신뢰성 및 시스템 안정성의 결정적 요인으로 부상함에 따라, 전력 테스트 요구사항은 테스트 흐름의 초기 단계로 앞당겨지고 그 범위도 더욱 심화되고 있습니다. 검증은 최종 테스트나 시스템 가동 단계에만 국한되지 않고, 웨이퍼 수준, 패키지 수준, 모듈 수준에 이르는 전 단계에 걸쳐 수행됩니다.

앞으로 랙 밀도가 높아지고 전압 아키텍처가 발전함에 따라, 전력 소자 검증에 대한 기준은 계속해서 높아질 것입니다.

전력 데이터 센터 도식도

(그림 3:인피니언의800V 아키텍처 구현, 출처: eeNews Europe)

AI 데이터 센터는 이미 신흥 800V DC 아키텍처를 포함해 고전압 DC 배전 방식으로 전환되고 있습니다. 이는 시스템 수준의 효율성을 향상시킬 것으로 기대되지만, 동시에 고전압 프런트엔드 장치부터 프로세서 인근의 고밀도 부하점(PoL) 전력 단계에 이르기까지 여러 변환 단계 전반에 걸쳐 새로운 검증 과제를 야기할 것입니다.

AI의 성장은 단순히 첨단 컴퓨팅 칩에만 달려 있는 것이 아닙니다. 이는 안정적이고 효율적인 전력 공급과, 이를 양산 규모에서 검증할 수 있는 능력에 달려 있습니다. 정확한 대전류 측정, 열 관리 기능을 고려한 테스트 전략, 확장 가능한 처리량은 더 이상 일부 분야에만 필요한 요건이 아닙니다. 이는 차세대 AI 인프라를 구현하기 위한 필수적인 기반입니다.

Aik-Moh Ng 는 테라다인(Teradyne)의 아날로그 파워 테스트 제품 담당 제품 매니저입니다. 자동화 테스트 장비 업계에서 20년 이상의 경력을 쌓아온 그는 마케팅 전략 수립 및 명확한 가치 제안과 제품 포지셔닝을 확립하는 데 핵심적인 역할을 해왔습니다. 제품 매니저로 임명되기 전, Aik-모는 필드 제품 전문가 및 선임 엔지니어를 비롯한 다양한 직책을 역임했습니다. Aik-모는 맨체스터 대학교에서 전기 및 전자 공학 학사 학위를 취득했습니다.

AI 서버 챌린지: 대규모 환경에서의 성능 검증

차세대 AI 아키텍처에 전용 전력 테스트 시스템이 필요한 이유

테라다인 블로그 구독하기