<미리 보는 NVIDIA GTC 2026 : Extreme Co-Design 완전덩복> - 두 번째 이야기
본 글은 NVIDIA GTC 2026을 앞두고 엔비디아의 핵심 전략인 'Extreme Co-Design'을 분석하는 5부작 시리즈의 두 번째 글입니다.
1편에서는 딥시크(DeepSeek)가 '주어진 하드웨어'를 극한으로 튜닝한 사례를 다뤘다면, 이번 편에서는 엔비디아가 하드웨어의 물리적 정의를 어떻게 바꾸고 있는지 파헤칩니다.

지난 1편에서 우리는 딥시크가 H800이라는 제약된 하드웨어 위에서 소프트웨어를 극한으로 비틀어 짜내는 (Squeeze) 과정을 목격했습니다. 그것은 분명 위대한 엔지니어링 승리였지만, 동시에 젠슨 황이 지난 수년간 경고해 온 "범용 컴퓨팅 스케일링의 한계"를 역설적으로 증명하는 사례이기도 했습니다.
젠슨 황은 여러 키노트와 인터뷰에서 "무어의 법칙은 사실상 끝났다(Moore's Law is dead)”고 반복해서
언급해 왔습니다. 트랜지스터를 더 작게 만드는 것만으로는 폭증하는 AI 연산량을 감당할 수 없기 때문입니다.
이에 엔비디아는 '익스트림 코-디자인(Extreme Co-Design)'을 통해 컴퓨팅의 실질 단위를 개별 칩(Chip)이
아니라 랙·데이터센터(Data Center) 규모로 확장하는 거대한 실험을 감행합니다.
1. 시스템의 해체와 재구성: 디스어그리게이션(Disaggregation)
엔비디아 블랙웰(Blackwell) 아키텍처의 핵심은 단순히 GPU 칩 성능을 높인 것이 아닙니다.
기존 x86 서버 구조를 완전히 해체(Disaggregation)하고 재조립했다는 점입니다.
● 기존의 한계
과거에는 서버 한 대에 GPU 8장을 꽂는 것이 표준(HGX)이었습니다. 하지만 1조 파라미터가 넘는
MoE(Mixture of Experts) 모델을 돌리려면 GPU 간 통신이 빈번해지는데, 서버 밖으로 데이터가 나가는 순간
통신 속도는 급격히 느려지고 병목이 발생합니다.
● NVL72, 랙(Rack)이 곧 칩이다
젠슨 황과 엔비디아는 이 문제를 해결하기 위해 72개의 GPU를 하나의 랙에 집어넣고,
이를 하나의 거대한 GPU처럼 동작하게 만들었습니다. 이것이 바로 GB200 NVL72입니다. 개별 GPU가 아닌,
72개 GPU가 단일 NVLink 도메인으로 묶인 랙 전체가 하나의 연산 유닛처럼 동작하는 것입니다.
2. 새로운 물리 법칙: 초당 130TB의 연결 속도
이 거대한 랙 시스템이 단일 칩처럼 동작할 수 있는 비결은 NVLink Switch 기술에 있습니다.
엔비디아는 랙 뒷면에 5,000가닥이 넘는 구리 케이블을 척추(Spine)처럼 연결하여, 72개 GPU 사이의 통신
대역폭을 초당 최대 130TB(Terabytes)의 All-to-All NVLink 대역폭까지 끌어올렸습니다.
엔비디아는 이 구성을 두고, “세계 인터넷 피크 트래픽보다 많은 데이터가 랙 하나 안에서 1초마다 흐른다”는
식으로 AI 팩토리의 스케일을 강조합니다. 딥시크가 H800의 낮은 대역폭 때문에 고생했던 문제를,
엔비디아는 아예 물리적인 '구리 고속도로'를 깔아버림으로써 다른 축에서 해결한 것입니다.
3. 엔지니어링의 딜레마 해결: ITL vs. 스루풋(Throughput)
엔지니어들에게 AI 인프라 구축의 가장 큰 난제는 반응 속도(ITL)와 처리량(Throughput) 사이의
트레이드오프(Trade-off)입니다.
● 인터토큰 레이턴시(ITL, 체감 속도)
답변이 뚝뚝 끊기지 않고 생성되는 속도입니다. 이를 높이려면 하나의
요청에 여러 GPU를 투입해야 하는데(모델 병렬화), 이 경우 비용 효율이 떨어집니다.
● 스루풋(Throughput, 생산성)
단위 시간당 처리하는 총 토큰 양입니다. 돈을 벌려면 스루풋을 높여야 하는데,
그러면 개별 사용자의 ITL이 느려집니다.
특히 최근 부상한 리즈닝(Reasoning) 모델은 생각하는 과정에서 엄청난 연산을 소모하기 때문에 이 딜레마가
더욱 심화됩니다. 엔비디아의 Extreme Co-Design은 72개 GPU를 NVLink로 하나의 거대한 메모리·연산 풀처럼
묶음으로써, 거대 모델을 메모리에 올리고도(ITL 확보) 동시에 수많은 사용자를 처리할 수 있는 (스루풋 확보)
해법 중 하나를 제시합니다.
이것이 젠슨 황이 말하는 '토큰 생성 원가 절감' 전략의 핵심 축입니다.
4. 익스트림 코-디자인: 칩, 시스템, 소프트웨어의 동시 발명
결국 엔비디아의 전략은 칩(Chip), 시스템(System), 네트워크(Network), 알고리즘(Algorithm)을 백지상태에서
동시에 설계(Simultaneous Invention)하는 것입니다.
● 딥시크의 방식
주어진 하드웨어에 맞춰 소프트웨어(PTX, DualPipe)를 뜯어고친다.
● 엔비디아의 방식
미래의 소프트웨어가 필요로 할 기능을 예측해, 칩과 시스템, 냉각 구조까지 동시에 만든다.
이제 우리는 하드웨어와 소프트웨어의 경계가 무너진 시대를 살고 있습니다. 그렇다면 이 거대한 'AI 팩토리'는
앞으로 어떤 형태의 지능을 만들어내게 될까요?
다음 편에서는 2025년 NVIDIA GTC에서 공개된 실물 시스템과,
이것이 어떻게 딥시크와 같은 '리즈닝 AI' 시대를 가속화하는지 구체적으로 살펴보겠습니다.

☞ (➂ ‘창고에서 공장으로’ : 엔비디아가 재 정의하는 ‘지능의 경제학’ 에서 계속)
📺 영상 보러 가기: https://lnkd.in/gBtXBzcE