본문 바로가기

AI Feed
카테고리 없음

② 젠슨 황의 선언, '무어의 법칙은 끝났다'와 Extreme Co-Design의 정의"

<미리 보는  NVIDIA GTC 2026 : Extreme Co-Design 완전덩복> - 두 번째 이야기

본 글은 NVIDIA GTC 2026을 앞두고 엔비디아의 핵심 전략인 'Extreme Co-Design'을 분석하는  5부작 시리즈의 두 번째 글입니다.
1편에서는 딥시크(DeepSeek)가 '주어진 하드웨어'를 극한으로 튜닝한 사례를 다뤘다면, 이번 편에서는 엔비디아가 하드웨어의 물리적 정의를 어떻게 바꾸고 있는지 파헤칩니다.

'무어의 법칙은 끝났다' & EXtreme Co-Design의 정의

지난 1편에서 우리는 딥시크가 H800이라는 제약된 하드웨어 위에서 소프트웨어를 극한으로 비틀어 짜내는 (Squeeze) 과정을 목격했습니다. 그것은 분명 위대한 엔지니어링 승리였지만, 동시에 젠슨 황이 지난 수년간 경고해 온 "범용 컴퓨팅 스케일링의 한계"를 역설적으로 증명하는 사례이기도 했습니다.

젠슨 황은 여러 키노트와 인터뷰에서 "무어의 법칙은 사실상 끝났다(Moore's Law is dead)”고 반복해서 
언급해 왔습니다. 트랜지스터를 더 작게 만드는 것만으로는 폭증하는 AI 연산량을 감당할 수 없기 때문입니다.
 이에 엔비디아는 '익스트림 코-디자인(Extreme Co-Design)'을 통해 컴퓨팅의 실질 단위를 개별 칩(Chip)이
 아니라 랙·데이터센터(Data Center) 규모로 확장하는 거대한 실험을 감행합니다.

1. 시스템의 해체와 재구성: 디스어그리게이션(Disaggregation)

엔비디아 블랙웰(Blackwell) 아키텍처의 핵심은 단순히 GPU 칩 성능을 높인 것이 아닙니다. 
기존 x86 서버 구조를 완전히 해체(Disaggregation)하고 재조립했다는 점입니다.

기존의 한계
 과거에는 서버 한 대에 GPU 8장을 꽂는 것이 표준(HGX)이었습니다. 하지만 1조 파라미터가 넘는 
MoE(Mixture of Experts) 모델을 돌리려면 GPU 간 통신이 빈번해지는데, 서버 밖으로 데이터가 나가는 순간 
통신 속도는 급격히 느려지고 병목이 발생합니다.

● NVL72, 랙(Rack)이 곧 칩이다
 젠슨 황과 엔비디아는 이 문제를 해결하기 위해 72개의 GPU를 하나의 랙에 집어넣고, 
이를 하나의 거대한 GPU처럼 동작하게 만들었습니다. 이것이 바로 GB200 NVL72입니다. 개별 GPU가 아닌,
 72개 GPU가 단일 NVLink 도메인으로 묶인 랙 전체가 하나의 연산 유닛처럼 동작하는 것입니다.

2. 새로운 물리 법칙: 초당 130TB의 연결 속도

이 거대한 랙 시스템이 단일 칩처럼 동작할 수 있는 비결은 NVLink Switch 기술에 있습니다. 
엔비디아는 랙 뒷면에 5,000가닥이 넘는 구리 케이블을 척추(Spine)처럼 연결하여, 72개 GPU 사이의 통신 
대역폭을 초당 최대 130TB(Terabytes)의 All-to-All NVLink 대역폭까지 끌어올렸습니다.

엔비디아는 이 구성을 두고, “세계 인터넷 피크 트래픽보다 많은 데이터가 랙 하나 안에서 1초마다 흐른다”는 
식으로 AI 팩토리의 스케일을 강조합니다. 딥시크가 H800의 낮은 대역폭 때문에 고생했던 문제를, 
엔비디아는 아예 물리적인 '구리 고속도로'를 깔아버림으로써 다른 축에서 해결한 것입니다.

3. 엔지니어링의 딜레마 해결: ITL vs. 스루풋(Throughput)

엔지니어들에게 AI 인프라 구축의 가장 큰 난제는 반응 속도(ITL)와 처리량(Throughput) 사이의 
트레이드오프(Trade-off)입니다.

● 인터토큰 레이턴시(ITL, 체감 속도)

답변이 뚝뚝 끊기지 않고 생성되는 속도입니다. 이를 높이려면 하나의 
요청에 여러 GPU를 투입해야 하는데(모델 병렬화), 이 경우 비용 효율이 떨어집니다.

스루풋(Throughput, 생산성)

단위 시간당 처리하는 총 토큰 양입니다. 돈을 벌려면 스루풋을 높여야 하는데, 
그러면 개별 사용자의 ITL이 느려집니다.

특히 최근 부상한 리즈닝(Reasoning) 모델은 생각하는 과정에서 엄청난 연산을 소모하기 때문에 이 딜레마가 
더욱 심화됩니다. 엔비디아의 Extreme Co-Design은 72개 GPU를 NVLink로 하나의 거대한 메모리·연산 풀처럼 
묶음으로써, 거대 모델을 메모리에 올리고도(ITL 확보) 동시에 수많은 사용자를 처리할 수 있는 (스루풋 확보) 
해법 중 하나를 제시합니다. 

이것이 젠슨 황이 말하는 '토큰 생성 원가 절감' 전략의 핵심 축입니다.

4. 익스트림 코-디자인: 칩, 시스템, 소프트웨어의 동시 발명

결국 엔비디아의 전략은 칩(Chip), 시스템(System), 네트워크(Network), 알고리즘(Algorithm)을 백지상태에서 
동시에 설계(Simultaneous Invention)하는 것입니다.

● 딥시크의 방식

 주어진 하드웨어에 맞춰 소프트웨어(PTX, DualPipe)를 뜯어고친다.

●  엔비디아의 방식

미래의 소프트웨어가 필요로 할 기능을 예측해, 칩과 시스템, 냉각 구조까지 동시에 만든다.

이제 우리는 하드웨어와 소프트웨어의 경계가 무너진 시대를 살고 있습니다. 그렇다면 이 거대한 'AI 팩토리'는 
앞으로 어떤 형태의 지능을 만들어내게 될까요?

다음 편에서는 2025년 NVIDIA GTC에서 공개된 실물 시스템과, 
이것이 어떻게 딥시크와 같은 '리즈닝 AI' 시대를 가속화하는지 구체적으로 살펴보겠습니다.

  (➂ ‘창고에서 공장으로’ : 엔비디아가 재 정의하는 ‘지능의 경제학’ 에서 계속)

📺 영상 보러 가기: https://lnkd.in/gBtXBzcE