본문 바로가기

AI Feed
Tech & Product

➂ ‘창고에서 공장으로’ : 엔비디아가 재 정의하는 ‘지능의 경제학’

<미리 보는  NVIDIA GTC 2026 : Extreme Co-Design 완전정복> - 세 번째 이야기

본 글은 NVIDIA GTC 2026을 앞두고 엔비디아의 핵심 전략인 'Extreme Co-Design'을 분석하는 5부작 시리즈의 
세 번째 글입니다. 1편의 '딥시크 쇼크', 2편의 '하드웨어의 재정의'에 이어, 이번 편에서는 엔비디아가 구축한 
'AI 팩토리'의 실체와 이것이 바꾸어 놓을 지능(Intelligence)의 경제학을 다룹니다.

'창고에서 공장으로' : 엔비디아가 재 정의하는 '지능의 경제학'

지난 2편에서 우리는 젠슨 황이 왜 칩(Chip) 단위를 버리고 랙(Rack) 단위의 설계를 선택했는지, 그리고 그 기술적 배경인
'시스템 해체(Disaggregation)와 '초당 130TB의 연결(Interconnect)'에 대해 살펴보았습니다.

이제 시선을 기술(Engineering)에서 시장(Market)으로 돌려볼 차례입니다. 엔비디아가 이 괴물 같은 하드웨어, 
GB200 NVL72를 통해 진짜로 만들고자 하는 세상은 무엇일까요? 젠슨 황은 이를 "AI 팩토리(AI Factory)"라는
 단어로 정의합니다. 이것은 단순한 마케팅 용어가 아니라, 기존 데이터센터의 비즈니스 모델을 ‘저장소 중심’에서 ‘
생산공장 중심’으로 전환하겠다는 선언에 가깝습니다.



1. 데이터센터의 종말, AI 팩토리의 시작

과거의 데이터센터는 '저장소'였습니다. 파일을 저장하고, 필요할 때 꺼내 쓰는 창고(Warehouse)와 같았습니다. 
하지만 엔비디아가 정의하는 미래의 데이터센터는 '공장(Factory)'입니다.

●  입력(Input): 데이터와 전기(Electricity)
●  공정(Process): NVL72 위에서 돌아가는 거대 언어 모델의 연산
●  출력(Output): '지능 토큰(Intelligence Token)'

젠슨 황은 "미래에는 전기가 들어가서 지능이 생산되어 나오는 공장이 제조업의 중심이 될 것"이라는 취지로 여러 
키노트에서 AI 팩토리 비전을 설명해 왔습니다. NVL72는 바로 이 공장의 핵심 발전기입니다. 여기서 중요한 것은 
개별 서버의 성능이 아니라, 공장 전체의 생산 효율성(Throughput per Watt)입니다.

2. 리즈닝(Reasoning) AI 시대를 위한 엔진

왜 지금 이토록 거대한 '단일 랙' 시스템이 필요할까요? 바로 AI가 단순히 정보를 검색하는 것을 넘어, 생각(Reasoning)하기 시작했기 때문입니다.

OpenAI의 o1이나 딥시크(DeepSeek)의 R1 같은 '리즈닝 모델'은 사용자의 질문에 바로 대답하지 않습니다. 
답변을 내놓기 전에 수초에서 수십 초 동안 내부적으로 수많은 '사고의 사슬(Chain of Thought)' 과정을 거칩니다.  이를 테스트 타임 컴퓨트(Test-Time Compute)'라고 합니다.

과거 (Training 중심) 현재(Inference 중심)
학습할 때만 막대한 연산이 필요하고,
추론은 상대적으로 가벼웠음
추론단계에서도 학습에 버금가는
막대한 연산과 메모리접근이 필요

NVL72 시스템은 72개의 GPU가 마치 하나의 뇌처럼 고대역으로 연결되어, 이 방대한 사고 과정을 처리하면서도 
지연 시간을 줄이기 위해 설계되었습니다. 딥시크가 소프트웨어 최적화로 H800의 한계를 극복하려 했다면, 
엔비디아는 NVL72라는 압도적인 하드웨어로 이런 ‘생각하는 시간’의 병목을 최대한 압축하려는 전략을 택한 셈입니다.

3. 토큰의 경제학: 한계비용 제로에 도전하다

엔지니어링의 극한 설계는 결국 경제적 이득으로 귀결됩니다. 엔비디아의 익스트림 코-디자인 전략의 최종 목표는 
'지능의 한계비용(Marginal Cost of Intelligence)을 0에 수렴시키는 것'에 가깝습니다.

블랙웰 아키텍처는 엔비디아 기준 특정 워크로드(예: 트릴리언 파라미터 LLM, FP4 활용)에서 이전 세대인 호퍼(Hopper) 대비 실시간 추론 성능을 최대 30배까지 높이고, 에너지 효율을 크게 개선했다고 주장합니다. 이는 같은 전력·비용 조건에서 최대 30배 더 많은 토큰을 생성할 수 있다는 의미로 해석될 수 있으며, 기업 입장에서는 특정 조건 하에서 토큰당 AI 도입 비용이 크게 떨어지는 효과를 기대할 수 있습니다.

경재사의 시각  젠슨황의 시각
엔비디아 GPU는 너무 비싸다 우리는 개별 칩은 비싸지만 토큰당 비용이
가장 낮은 시스템을 판다.

이것이 엔비디아가 경쟁사들이 쉽게 따라오기 어려운 해자(Moat)를 형성한다는 평가를 받는 지점이며, 
칩의 가격(Price)이 아닌, 시스템 전체의 생산성(TCO, 토큰당 비용)으로 경쟁의 판을 바꿔버린 것입니다.

4. 1년 주기 출시(One-Year Rhythm): 멈추지 않는 혁신

이러한 AI 팩토리를 완성하기 위해 엔비디아는 또 하나의 충격적인 선언을 했습니다. 바로 고성능 GPU·시스템 플랫폼 출시 주기를 기존 2년 안팎에서 연간(1년 리듬)의 아키텍처/플랫폼 업그레이드로 가져가겠다는 것입니다.

블랙웰(2024)에 이어 블랙웰 울트라(GB300, 2025), 그리고 루빈(Vera Rubin, 2026 이후)으로 이어지는 숨 가쁜 로드맵은 '익스트림 코-디자인' 없이는 사실상 불가능합니다. 칩, 시스템, 소프트웨어를 동시에 설계하고 검증하는 자동화된 파이프라인이 구축되었기에 가능한 속도입니다. 이는 경쟁사들에게 "따라올 테면 따라와 보라"는 무언의 압박이자, 전통적인 무어의 법칙 대신 연간 AI 팩토리 세대교체로 자체적인 스케일링 법칙을 만들겠다는 자신감의 표현입니다.

자, 이제 우리는 엔비디아가 만든 'AI 팩토리'의 내부를 들여다보았습니다. 72개의 GPU가 하나로 융합된 이 거대한 기계는 인류가 만들어낸 가장 복잡한 도구 중 하나일 것입니다.

하지만 젠슨 황의 야망은 데이터센터 안에만 머물지 않습니다. 그는 이제 이 지능을 데이터센터 밖으로 꺼내, 물리적인 세계(Physical World)로 확장하려 합니다.


다음 4편에서는 2025년 10월 워싱턴 GTC와 CES 기조연설에서 드러난 엔비디아의 다음 단계,
'루빈(Rubin) 플랫폼'과 
'피지컬 AI(Physical AI)', 그리고 '6G로 연결되는 확장의 비전을 미리 살펴보겠습니다.

(4편: 확장(Expansion) - 루빈(Rubin), 그리고 물리적 세계로 나온 AI 에서 계속)

📺 영상 보러 가기: https://lnkd.in/gBtXBzcE