본문 바로가기

AI Feed
Tech & Product

① '결핍'이 쏘아 올린 Extreme Co-Design의 서막

<미리 보는 NVIDIA GTC 2026 : Extrene Co-Design 완전정복> - 첫 번째 이야기

본 글은 다가오는 NVIDIA GTC 2026의 핵심 의제인 'Extreme Co-Design'을 깊이 있게 이해하기 위해 기획된  5 편 시리즈의 첫 번째 글로, 2025년 AI 인프라의 패러다임을 바꾼 'DeepSeek' 사태를 엔지니어링 관점에서 분석했습니다.


2026년 3월, 전 세계 엔지니어들의 시선이 다시 한번 젠슨 황의 키노트로 향하고 있습니다. 
이번 NVIDIA GTC 2026에서 엔비디아가 보여줄 '루빈(Rubin)' 플랫폼과 AI 팩토리 비전을 제대로 이해하기 위해서는, 시계를 잠시 1년 전으로 되돌려 2025년 1월을 강타했던 'DeepSeek(딥시크) 사태'를 복기할 필요가 있습니다.

당시 중국의 DeepSeek는 미국의 제재로 대역폭이 토막 난 H800 칩셋을 사용하면서도 GPT-4 계열 상용 모델에 근접한 성능과 비용 효율을 보여 충격을 주었습니다.

이 사건은 단순히 "가성비"의 이슈가 아니었습니다. 하드웨어의 물리적 한계를 소프트웨어와 알고리즘의 극한 최적화로 돌파했다는 점에서, 엔비디아가 NVIDIA GTC 2025 이후 자사 전략의 핵심 프레임으로 전면에 내세운 Extreme Co-Design의 가장 극적인 ‘사용자 입장에서 구현한 사례’로 해석할 수 있었기 때문입니다.

하드웨어를 바꿀 수 없었던 그들은, 대신 하드웨어의 결함에 맞춰 소프트웨어 스택 전체를 재설계했습니다. 


DeepSeek가 보여준 Co-Design의 핵심 요소는 다음과 같습니다.


🔰 인프라 레벨의 최적화 (Architecture & System)

● MLA (Multi-Head Latent Attention)
   H800의 치명적 약점인 '메모리 대역폭' 부족을 해결하기 위해 도입되었습니다.
   KV
캐시를 저랭크(Low-Rank)로 압축하여 메모리 병목을 연산 부하로 치환함으로써 대역폭 한계를 우회했습니다.


DeepSeekMoE & PTX 튜닝
   통신 속도가 느린 클러스터 특성을 고려해 전문가(Expert) 모델을 잘게 쪼개고 공유(Shared)했습니다.
   특히, 통신 병목을 해소하기 위해 CUDA를 넘어 어셈블리 레벨인 PTX단에서 통신과 연산의 파이프라인을 직접 제어하는 광기를
   보여주었습니다.

DualPipe
   느린 인터커넥트 속도를 감추기 위해(Latency Hiding), 전방향(Forward)과 역방향(Backward) 계산을 겹쳐서 
   실행하는 양방향 파이프라인으로 연산-통신 오버랩(Overlap)을 극대화했습니다.

🔰 알고리즘 레벨의 최적화 (Algorithm & Training)

● GRPO (Reasoning의 효율화)
   추론(Reasoning) 모델 학습 시 메모리를 많이 차지하는 기존 PPO 방식 대신, 비평가(Critic) 모델을 제거한 GRPO 알고리즘을
   고안했습니다. 이는 메모리·비용 제약 속에서 reasoning 성능을 뽑기 위해 알고리즘 구조를 재설계한 Co-Design 사례입니다

지식 증류 (Distillation)
   거대 모델의 추론 능력을 작은 모델에 이식하여, 고비용의 하드웨어 없이도 고성능 AI를 구동할 수 있는 경로를 개척했습니다.


DeepSeek가 '결핍'을 메우기 위해 소프트웨어와 알고리즘을 찌그러진 하드웨어 모양에 맞췄다면, 
엔비디아는 이 복잡성을 해결하기 위해 아예 칩과 시스템, 소프트웨어, 알고리즘을 처음부터 동시에 설계(Simultaneous Invention)해버리는 전공법을 택했습니다.

젠슨 황은 이를 "공급자(Vendor) 관점"의 Extreme Co-Design이라 명명합니다.

사용자가 칩에 맞춰 춤을 추는 것이 아니라, 칩과 데이터센터 전체가 하나의 유기체처럼 설계되는 
엔비디아의 방식은 과연 무엇이 다를까요? 다음 글에서는 젠슨 황이 정의하는 본격적인 Extreme Co-Design의 개념과, 
그가 왜 "무어의 법칙은 끝났다"고 선언하며 이 개념을 들고 나왔는지 심층적으로 다뤄보겠습니다.

미리보는 NVIDIA GTC 2026


☞  (2편: 젠슨 황이 정의하는 'Extreme Co-Design'이란 무엇인가? 에서 계속)

📺 영상 보러 가기: https://lnkd.in/gBtXBzcE