본문 바로가기

AI Feed

Tech & Product

➂ ‘창고에서 공장으로’ : 엔비디아가 재 정의하는 ‘지능의 경제학’ - 세 번째 이야기 본 글은 NVIDIA GTC 2026을 앞두고 엔비디아의 핵심 전략인 'Extreme Co-Design'을 분석하는 5부작 시리즈의 세 번째 글입니다. 1편의 '딥시크 쇼크', 2편의 '하드웨어의 재정의'에 이어, 이번 편에서는 엔비디아가 구축한 'AI 팩토리'의 실체와 이것이 바꾸어 놓을 지능(Intelligence)의 경제학을 다룹니다.​지난 2편에서 우리는 젠슨 황이 왜 칩(Chip) 단위를 버리고 랙(Rack) 단위의 설계를 선택했는지, 그리고 그 기술적 배경인'시스템 해체(Disaggregation)와 '초당 130TB의 연결(Interconnect)'에 대해 살펴보았습니다.​이제 시선을 기술(Engineering)에서 시장(Market)으로 돌려볼 차례입니다. 엔비디아가 이..
① '결핍'이 쏘아 올린 Extreme Co-Design의 서막 - 첫 번째 이야기본 글은 다가오는 NVIDIA GTC 2026의 핵심 의제인 'Extreme Co-Design'을 깊이 있게 이해하기 위해 기획된 5 편 시리즈의 첫 번째 글로, 2025년 AI 인프라의 패러다임을 바꾼 'DeepSeek' 사태를 엔지니어링 관점에서 분석했습니다.2026년 3월, 전 세계 엔지니어들의 시선이 다시 한번 젠슨 황의 키노트로 향하고 있습니다. 이번 NVIDIA GTC 2026에서 엔비디아가 보여줄 '루빈(Rubin)' 플랫폼과 AI 팩토리 비전을 제대로 이해하기 위해서는, 시계를 잠시 1년 전으로 되돌려 2025년 1월을 강타했던 'DeepSeek(딥시크) 사태'를 복기할 필요가 있습니다.당시 중국의 DeepSeek는 미국의 제재로 대역폭이 토막 난 H800 칩셋을 사용하..
AI Pub Ops 4.0.0 공개 : "기반"을 넘어 "본질"이 되다 최근 ‘AI 버블’이라는 표현이 종종 언급됩니다.AI에 대한 대규모 투자 이후, 투자 대비 성과에 대한 고민이 커지고 있기 때문입니다.이 과정에서 기업들은 AI 인프라 효율화를 중요한 과제로 인식하기 시작했습니다.TEN은 기업들의 실제 운영 환경에서 축적된 요구를 반영해 한층 강화된AI 인프라 운영 플랫폼 AI Pub Ops 4.0.0을 공개했습니다.🌟 AI Pub Ops 4.0.0 Kubernetes-native 아키텍처로 진화한 AI 인프라 운영 🌟 AI Pub Ops 4.0.0은 Kubernetes의 핵심 설계 철학을 깊이 반영한 Kubernetes-native 아키텍처를 기반으로 설계되었습니다.이를 통해 AI 인프라 운영의 안정성, 확장성, 그리고 운영 일관성을 한층 강화했습니다.엔터프라이즈..
AI 인프라를 읽고, 판단하고, 대응하는 모니터링 시스템 🖥️AI 인프라 운영은일반 서버 인프라 관리보다 훨씬 까다롭습니다. 모델 학습과 추론이 동시에 진행되기도 하고,GPU·CPU·스토리지·네트워크 자원이 여러 사용자와 서비스에 실시간으로 공유되기 때문입니다.​문제는, 이렇게 복잡하게 얽힌 환경에서 단순 수치 모니터링만으로는상황을 정확히 파악하기 어렵다는 것입니다.GPU 사용률이 80%라고 해서 성능이 잘 나오고 있다고 단정할 수 없고, 반대로 사용률이 낮다고 해서 여유 있다고 보장할 수도 없습니다.​예를 들어,• 특정 모델이 GPU 메모리를 과도하게 점유해 다른 작업에 영향을 주는 경우• 네트워크 병목으로 학습 속도가 급격히 떨어지는 경우• 일부 노드만 비정상적으로 과부하가 걸리는 경우• 이 모든 문제는 실시간 상태를 다각도로 모니터링하지 않으면 놓치기 ..
하이브리드 & 멀티클러스터 AI 인프라, 한 번에 관리하려면? 흩어진 AI 인프라, 한 곳에서 통합 운영하는 방법AI 워크로드가 늘어날수록, 운영 환경은 복잡해지고 있습니다.온프렘/클라우드가 섞이고, 클러스터는 전 세계로 퍼져나가고,프로젝트마다 리소스 사용 기준이 다를 때,우리는 운영 통제권을 점점 잃고 있습니다. 🔍 AI 인프라, 왜 이렇게 복잡해졌을까?과거에는 GPU 서버 한두 대만 있으면 충분했습니다.하지만 지금은 다릅니다.✔ AI 학습은 온프렘, 추론은 클라우드✔ 서울의 온프렘 클러스터와 미국의 클라우드 리전을 함께 사용하는 구조✔ 프로젝트별로 스토리지, 네트워크, 보안정책까지 제각각※ 참고 • 온프렘(서울 IDC): 기업이 자체 보유하거나 임대한 사내 데이터센터 인프라• 클라우드 리전: AWS, GCP, Azure 등 글로벌 클라우드 사업자가 운영하는 지..
GPU가 부족한 게 아니라, 운영이 잘못된 걸지도 모릅니다 “GPU가 부족해서 늘 학습 작업이 밀려요”▼정말 GPU가 부족한 걸까요, 아니면 리소스 운영 방식이 문제일까요?많은 AI 운영팀에서 공통적으로 겪는 문제들이 있습니다.• GPU는 남아있는데도 대기열은 계속 늘어나고• 프로젝트마다 자원이 충돌하고• 어디에서 낭비가 일어나는지 파악이 어렵습니다그런데 자세히 보면,하드웨어 스펙보다 더 중요한 건‘운영 전략’이라는 걸 알 수 있습니다. ✅ GPU를 더 똑똑하게 쓰는3가지 운영 전략 ➊ 사용자/팀 단위 자원 할당 정책 수립누구에게, 얼마만큼, 언제까지→ 이 기준 없이 GPU를 운용하면 ‘점유’는 되지만 ‘활용’되진 않습니다.💡 자원 사용권한을 사용자·팀·프로젝트 단위로 나누고,사용 종료 시 자동 회수되도록 설정하세요. ➋ 우선순위 기반 스케줄링실시간 요청 ..
AI 인프라 오케스트레이션이 필요한 3가지 상황 GPU 자원, 아직도 고정 할당하고 계신가요?🧩 이런 상황, 실무에서 익숙하지 않으신가요?“GPU는 많은데 작업 대기열은 왜 줄지 않죠?”“AI 모델은 커지는데 GPU는 여전히 제자리예요.”“프로젝트가 끝나도 리소스 회수는 없어요…”이처럼 GPU 자원을 "전용처럼 고정 사용"하고 있다면,지금이 바로 AI 인프라 오케스트레이션을 고려할 시점입니다. 🔍 AI 인프라 오케스트레이션이란?**AI 인프라 오케스트레이션(AI Infrastructure Orchestration)**은AI 모델 학습 및 추론과 같은 워크로드 실행을 위한 GPU, CPU, 스토리지 등 인프라 자원을 자동으로 할당·최적화·관리하는 기술입니다.✅ 주요 기능자원 프로비저닝 및 할당→ GPU, CPU 등 자원을 필요 시점에 동적으로 배정..
"GPU 클러스터, 정말 필요한가?" 도입 전 꼭 확인해야 할 5가지 조건 왜 지금, GPU 클러스터일까?모델이 거대해지고, AI 연산량이 폭증하면서많은 기업이 "GPU 클러스터" 도입을 검토하고 있습니다.하지만 도입 이후에도 GPU 자원은 놀고 있는 경우가 많고,비싼 인프라가 제 역할을 못 하는 상황이 반복됩니다.문제는 GPU 클러스터가 아니라,"그 자원을 얼마나 유연하고 효율적으로 운영할 수 있는가"입니다. 클러스터 도입 전 꼭 확인해야 할 5가지➊ 단일 GPU 서버로 감당할 수 없는 연산량인가?대규모 모델 학습, 고해상도 비디오 처리, 분산 추론 등하루 이상 걸리는 학습이 늘고 있다면✔ "복수 서버 기반의 연산 환경"이 필요할 수 있습니다.➋ 고연산 병렬 작업이 실시간으로 처리되어야 하는가?• 팀 구성원들이 동시에 모델을 실험• 테스트/서빙/학습이 모두 병..
AI 워크로드 운영을 자동화하는 AI Pub(에이아이펍)의 5가지 활용 전략 GPU 인프라, 더 똑똑하게 운영하려면?많은 기업이 AI 모델을 학습시키기 위해 고가의 GPU 자원을 확보하지만,운영 효율은 생각보다 낮은 경우가 많습니다.학습 스케줄이 겹치거나, GPU가 유휴 상태로 방치되는 일이 반복되기 때문입니다.이러한 문제를 해결하기 위해 주식회사 텐(TEN)은 AI 워크로드에 최적화된 인프라 스케줄링 플랫폼, AI Pub을 제공합니다. AIPub의 주요 기능 5가지1. GPU 자원 분할 및 통합 스케줄링• 하나의 GPU를 100개 단위로 쪼개 여러 작업자가 동시 사용• 반대로, 대규모 학습이 필요한 경우 여러 GPU를 하나로 통합해 사용• AI Pub의 대표 기능: GPU 스케줄링 + 가상화2. 학습 워크로드 자동 스케줄링• 학습 job 등록 → AI Pub이 리소스 상황을..