본문 바로가기

AI Feed
Tech & Product/AI, 더 쉽게

AI 인프라, GPU만 알고 계신가요?

여러분은 ‘AI’ 하면 무엇이 떠오르시나요? 여전히 ChatGPT인가요? 최근에는 애플 인텔리전스 때문에 애플이나 시리를 먼저 이야기하실 분도 있을 것 같습니다. 세계 주식 시장과 산업 구조에 관심이 있으신 분들은 ‘엔비디아’를 얘기하시는 분들도 있겠네요. ‘엔비디아’의 주력 제품인 ‘GPU’까지 이야기하시는 분들이 있다면, AI에 대해 그래도 조금은 알고 계신 분이라 할 수 있겠습니다. 예를 들면, AI 피드에 자주 찾아오시는 분들이요.

GPU는 ‘AI 인프라’라 하면 떠오르는 가장 1순위 키워드일 것입니다. 아무래도 매년 상, 하반기에 걸쳐 꾸준히 AI 데이터센터를 위한 GPU 신제품을 발표하는 엔비디아 덕이 가장 크겠지만요. 그래도 조금은, TEN의 노력도 있다고 생각합니다. AI 피드에서 AI 소식을 접하시는 분들이 생각보다 많이 있거든요. (종종 주요 언론사 기자님들의 러브콜도 받는다는 사실을 슬쩍 자랑해 봅니다.) 아무튼, AI 개발과 운영에 있어 GPU가 필요하다는 인식은 어느 정도 널리 퍼져 있는 것 같습니다. 그런데, 정말 GPU만 있으면 AI를 개발하고 운영할 만할까요?

데스크톱도 CPU, GPU, 그 외 기타 부품들로 이루어져 우리가 이용할 수 있게 구동하는 방식인 것처럼, AI 인프라도 마찬가지입니다. GPU가 핵심적인 역할을 하지만, 이를 뒷받침해 주는 다른 인프라 요소들도 필요하지요. 하지만, 이 사실을 많은 분들이 모르시기도 하고 워낙 ‘GPU’의 인상이 더 강렬하게 각인되어 있다 보니, AI 인프라를 구축하려고 마음먹으셨을 때 놀라거나 당황하시는 경우를 종종 보았습니다. GPU를 중심으로 생각하고 나머지는 조금 가볍게 생각하셨다가, 그 사양과 금액 등 다양한 내용을 제대로 알게 되기 때문이에요. 그래서, 오늘은 TEN의 전문 분야, AI 인프라를 주제로 GPU 외에도 주목해야 할 AI 인프라 구성 요소에 대해 초심자 레벨로 알려드리고자 합니다.

 

 

 

[ 일단, AI 인프라를 직접 구축할지부터 결정하자 ]

AI 도입을 막 결정한 기업에서 제일 먼저 직면하는 문제는 AI 개발을 위한 인프라 구축입니다. AI 도입에 대한 의사 결정, 방향성, 기획 등은 내부의 개발 전문 인력과 자체적으로 만들어갈 수 있는 부분입니다. 반면 AI 인프라 구축은 다양한 제품의 사양이 개발하고 운영할 AI의 리소스 요구량과 성능에 어떻게 상응하는지 알기 쉽지 않아요. 그리고 큰 비용이 든다는 점 역시 마찬가지지요.

AI 인프라는 클라우드 방식과 온프레미스 방식 중 기업 내의 다양한 여건에 맞는 것을 선택하여 구축할 수 있습니다. 클라우드 방식은 이미 우리가 알고 있는 클라우드의 개념과 동일하며, 온프레미스의 경우 물리적인 공간을 마련해서 직접 필요한 인프라 요소를 구축해 운용하는 방식입니다. 생소한 말이라 느껴지신다면, 가장 쉬운 이해 방법으로는 ‘서버실’을 생각하시면 되겠습니다. 세세하게 따져 보면 AI 인프라와 동일한 기능과 구성은 아니겠지만요.

 

클라우드 방식으로 AI 인프라를 구축, 운용하는 경우 가장 먼저 눈에 띄는 이점은 초기 구축 비용이 적다는 것입니다. 또한, 만약 인프라 리소스가 부족하다고 느껴진다면, 서비스 추가 구매 또는 리소스에 비례한 비용 결제와 같은 방식으로 쉽게 AI 인프라를 확장할 수도 있습니다. 연결성 측면에서도 이점이 있습니다. 클라우드 서비스에는 인터넷만 가능하다면 언제 어디서나 접근할 수 있으니까요. 긴 시간이 필요한 AI 모델의 학습 현황을 언제든 확인할 수 있고, AI 개발 및 학습은 물론 배포 후 운영 과정에서 생긴 이슈들을 언제 어디서든 트러블 슈팅할 수 있습니다.

다만, 클라우드 방식으로 AI 인프라를 운용하다 보면 사용료가 누적되면서 부담스러운 규모의 비용이 발생할 수 있고, 인터넷이 연결되어 있을 때 취할 수 있는 장점이, 인터넷 연결이 ‘끊기면’ 모두 사라진다는 점도 단점이 될 수 있겠습니다. 또한 AI 도입을 위해 인프라를 운용하는 방식이, 클라우드 서비스 제공자 또는 플랫폼의 정책의 영향을 받게 됩니다. 쉽게 말하면, 이용료를 낸 리소스를 완전히 마음대로 사용하기는 어려울 수 있다는 이야기지요.

 

온프레미스 방식으로 AI 인프라를 구축 운용하는 경우, 클라우드 방식과 반대로 초기 구축 비용이 부담으로 작용할 수 있습니다. 그러나 그 이후 취할 수 있는 이점이 명확합니다. AI 도입을 위해 활용하는 모델, 학습 데이터 등이 온프레미스 방식으로 구축된 인프라 내에 있기 때문입니다. 민감한 정보들을 학습 데이터로 사용하는 AI라면, 데이터 보안 측면에서 온프레미스 환경의 인프라가 더 나은 선택일 수 있습니다.

또한 직접 구매한 GPU와 스토리지 등을 물리적인 공간 내에서 AI 인프라로 구축하여 관리하므로 세세한 부분까지 제어할 수 있는 점도 장점입니다. 비즈니스 요구에 맞게 인프라를 조정 및 변경할 수 있게 되니까요. 초기 구축 이후 어떻게 운용하느냐에 따라 클라우드 서비스보다 낮은 비용이 발생한다는 점도 중요합니다. GPU 등을 추가 구매해야 할 경우에 비용이 더 발생할 수 있지만요. 도입한 AI의 지속성과 전체 비용 효율을 고려하면, 온프레미스가 합리적인 선택일 수 있습니다. 그래서 TEN에서는 온프레미스 방식의 AI 인프라 구축을 주로 권하고 있기도 합니다.

 

 

 

[ 온프레미스 구축이라면, GPU가 정말 다일까? ]

AI 도입으로 이용 및 제공하고자 하는 기능이 일시적이지 않다면, 온프레미스 방식의 AI 인프라 구축을 권해드리는데요. 이때 중요한 것은 물론 학습 및 연산을 담당하는 GPU겠지만, 패브릭 케이블, 스토리지 역시 중요하게 고려할 요소가 됩니다.

스토리지는 대규모 데이터를 저장한다는 점에서, 그 중요성이 GPU 못지않다고 말할 수 있습니다. 데이터의 정제, 관리, 백업 등 다양한 데이터 작업을 지원하기 때문에 AI 모델의 성능에 영향을 미칩니다. 아무리 좋은 GPU를 마련하여 AI 인프라를 구축했다 해도, 스토리지가 받쳐주지 않으면 그 성능을 제대로 발휘할 수 없게 됩니다.

스토리지의 역할을 알아보고 나면, 데이터를 안전하게 보관하고 쉽게 접근할 수 있도록 하며, 넉넉한 용량을 갖춘 스토리지 역시 GPU에 못지않은 비용이 발생하는 인프라 요소임을 이해할 수 있게 되는데요. 동시에 중요하게 챙겨야 할 AI 인프라 요소가 더 있습니다. 오늘은 그중에서도 패브릭, 즉, 케이블에 관해서 이야기해 보겠습니다.

GPU와 스토리지를 모두 고사양, 고성능으로 갖추었더라도 둘을 연결하는 케이블이 이를 버텨내지 못한다면, 이 역시 AI 성능에 영향을 줍니다. 고속으로 데이터 전송할 수 있는 패브릭을 구비하는 것이 중요한 이유입니다. 또한 더 많은 컴퓨팅 자원과 스토리지를 쉽게 통합할 수 있을 정도의 성능이어야, 대형 AI 모델을 위한 AI 인프라의 연결성을 더 단단히 해줄 수 있습니다.

 

 

 

[ 고성능 GPU의 든든한 지원군이 되는 인프라 요소들 ]

TEN이 이번 GTC 2024에서 직접 보고 왔답니다

AI 모델의 경량화로 인하여 인프라 리소스 효율을 높이고자 하는 움직임이 있더라도, 다양한 AI 모델을 동시 개발, 배포하는 등 AI의 활용처가 확장되고 있습니다. 따라서 온프레미스 방식으로 직접 구축한 AI 데이터센터의 크기가 축소될 일은 적어 보입니다. 물리적인 부피가 줄어들 수는 있겠지만, 여전히 다수의 GPU와 스토리지, 케이블이 필요합니다. 2024년 상반기 엔비디아에서 발표한 블랙웰을 떠올려 보신다면 이해하실 것 같습니다. 다수의 GPU와 스토리자가 층층이 쌓이고, 케이블이 마치 척추 신경처럼 다발로 얽혀 있는 모습 말이에요.

AI 모델은 방대한 양의 데이터가 필요하므로, 이를 저장할 수 있는 고용량 스토리지가 필요합니다. 특히 SSD와 같은 고속 스토리지를 사용할 경우, 데이터 접근 시간이 줄어들어 AI 모델의 훈련 및 추론 속도를 향상할 수 있습니다. 만약 실시간 데이터 처리에 중요한 LLM, LMM 모델을 사용한다면, 고속 스토리지를 다량 보유할 필요가 있겠지요. 글로벌 테크 기업들이 대규모 데이터센터를 구축하고 고속 스토리지를 GPU만큼 다량 보유하는 이유가 여기에 있습니다.

고속 네트워크 패브릭이 맡은, GPU, CPU, 스토리지 간의 데이터 이동을 빠르게 하여, 전체 시스템의 성능을 최적화하는 역할을 잘 수행하면 고성능 GPU가 가진 성능을 최대한으로 활용할 수 있습니다. 네트워크 패브릭에서의 데이터 전송 지연을 최소화하면, 실시간으로 데이터를 처리하기 수월해지거든요. GPU의 성능 최적화에 분명하게 영향을 주는 부분입니다. 패브릭의 성능이 높을수록 더 많은 컴퓨팅 자원과 스토리지를 쉽게 통합할 수 있다는 점도 마찬가지입니다. AI 도입 현황에 따라 데이터센터를 확장하더라도, 그로 인해 GPU의 성능이 큰 영향을 받지 않으려면 패브릭의 역할이 중요합니다. 대규모 분산 시스템에서 중요한 요소라 할 수 있습니다.

 

 

 

오늘 AI 피드를 통해 알게 되신 내용을 토대로 해서, 앞으로 AI 인프라에 대한 이야기가 나올 때, 엔비디아에서 신제품을 발표할 때 GPU 외에 스토리지와 케이블 제품에 관한 내용에도 귀가 뜨이시지 않을까 기대해 봅니다.

AI 인프라에 대해 구체적으로 알아가기 시작하면, 오늘 설명하여 드린 스토리지나 패브릭만큼 중요한 요소들을 만나게 되실 거예요. TPU(텐서 처리 장치), 실리콘 칩, 슈퍼컴퓨터 등 AI 인프라의 주요 구성 요소로 꼽아 설명해 드릴 내용은 여전히 많습니다. 이들은 이야기할 내용도 무궁무진하기 때문에, 하나의 콘텐츠로 각각 다루어야 할 정도인데요. 기회가 된다면 AI 피드에서 중점적으로 다뤄보겠습니다. 그럼, 다음 주에 흥미로운 AI 이야기로 다시 찾아뵙겠습니다.