본문 바로가기

AI Feed
Tech & Product/AI, 더 쉽게

AI 인프라가 AI 도입의 Key! AI 인프라 리소스 효율을 위한 다양한 노력들

AI를 도입하는 과정을 생각하면 가장 먼저 떠오르는 것은 무엇인가요? AI 모델을 바탕으로 기획한 서비스를 개발하고, 모델이 데이터를 학습하고… 일명 ‘AIOps’나 ‘MLOps’라고 이야기하는 과정을 생각하실 텐데요. 그런데 개발자분들이 AI 모델을 바탕으로 서비스를 개발하고, 서비스하는 과정 뒤에 ‘AI 도입’의 ‘키’🔑라고 할 수 있는 것이 있습니다. 직접 AI를 도입해 보신 분들만 체감한다는, 바로 ‘AI 인프라’의 구축과 관리입니다.🤓

많은 분이 알고 계시다시피, AI는 도입 과정에서 자원이 계속 필요합니다. AI 인프라는 이 과정에서 나무의 단단한 줄기🌳처럼, AI가 안정적으로 도입될 수 있도록 리소스로서 기여합니다. 즉, AI 인프라는 AI를 개발, 학습, 배포하기 위해서 반드시 필요합니다.🤓 형태는 클라우드가 될 수도 있고 온프레미스 방식으로 직접 GPU, 네트워크, 스토리지를 구매하여 구축할 수도 있습니다. 장기적인 관점에서는 직접 AI 인프라를 구축하는 편이 유리하기에, 많은 기업이 직접 AI 인프라를 구축, 관리하게 됩니다.

 

AI 인프라는 AI 도입 과정 내내 필요한 것이므로 지속적인 관리가 필요합니다. 관리하지 않으면 어떻게 되냐고요? 바로, 막대한 ‘비용’🤑으로 돌아옵니다. 그렇기에 AI 인프라 관리는 ‘비용’을 낮추는 방향에 초점을 맞춰 왔습니다. 구축 단계에서부터 비용 효율을 위해 성능을 최적화하는 구성을 고민하기도 하고요. 구축 후 AI 인프라를 관리하는 관점을 AI를 개발 또는 학습 중인지 또는 서비스 배포 후인지에 따라 다르게 가져가야 비용과 성능 차원에서 효율을 높일 수 있습니다.

AI 인프라의 ‘비용’을 절감하는 차원에서 다양한 시도가 있었습니다. 모델 레벨에서의 시도, 모델을 출시하는 과정에서의 시도, 그리고 AI 도입 과정에서 사용할 수 있는 MLOps 솔루션 레벨에서의 시도가 있습니다. 오늘 [AI, 더 쉽게] 에서는, AI 인프라 비용을 절감하기 위한 다양한 노력에 대해 알아보겠습니다.🙂

 

 

 

[ sLM, 그리고 최근의 ChatGPT 4o까지 : AI 인프라 리소스를 덜 사용하기 ]

‘AI 모델’에서 AI 인프라 리소스 사용량을 줄여, 비용을 절감하고자 한 사례들을 먼저 짚어 보겠습니다. AI 도입을 위해 사용하는 모델들은 대체로 LLM, LMM 등과 같이 거대 규모입니다. 이런 모델들은 아주 많은 데이터를 학습하였기에 처음 모델을 개발하는 과정부터 실제 배포하기까지 AI 인프라 리소스를 아주 많이 사용하는데요. 그 결과 배포되는 모델의 크기도 크고, 이 모델을 바탕으로 AI 서비스를 개발하여 배포하면, 서비스 유지를 위한 리소스도 많이 필요합니다.🤦

그래서 sLM이 주목받게 되었습니다. AI를 도입한 서비스 사례를 보면, 아직은 ‘챗봇’의 형태가 많은데요. 이 경우, 특정 비즈니스에 한정하여 데이터를 학습하면 되므로 LMM 수준으로 데이터를 학습하는 모델이 필요하지 않을 수 있습니다. sLM이 이 경우에 적합한 대안이 된 것이고, 모델의 크기가 LMM보다 작으니 리소스 사용량이 LLM에 비하여 적어 도입 과정에서의 비용도 절감됩니다.🙂

 

새로운 AI 모델들이 거듭하여 등장하면서, 새로운 LLM, LMM의 AI 인프라 리소스 사용량도 감소하게 되었습니다. AI 모델을 활용하는 과정에서 AI 인프라 리소스 효율을 모델 단위에서 연구한 결과이지요. 가장 최근에 발표한 ChatGPT 4o 가 기존 모델 대비 성능이 개선되고, 감성을 더했다는 점, 애플의 시리에 도입되는 점 등으로 인해 많은 주목을 받고 있는데요.  이 모델 역시 AI 인프라 리소스 사용량을 개선, 전작 대비 비용을 절반으로 줄였습니다.😲

sLM으로 분류되는 크기도 아니고, '옴니'라는 이름이 붙은 만큼 학습과 연산 기능 등이 복합적이어서 모델 3개가 동시 작동하는 것이나 마찬가지라고 하는데요. 그럼에도 비용을 절반으로 줄였다는 점이 참 놀랍습니다. AI 산업을 리드하는 오픈AI에서도 기능, 성능과 함께 비용을 꼭 고려하는 모습을 볼 때, AI 모델을 개발 중인 다른 글로벌 테크 기업들도 비슷한 기조를 유지할 것으로 볼 수 있겠습니다.

 

 

 

[ Gemini : AI 인프라에 맞춰 AI 도입에 활용할 모델 버전 결정하기 ]

AI 기반 서비스를 개발하는 기업과 개발자들은 기존에 존재하는 모델들을 2차 활용할 때 리소스, 크기 등 여러 가지를 고려해야 했어요.🤔 이 선택에 따라 AI를 활용하는 과정에서 발생하는 비용, 추후 제작된 AI 서비스의 유지 비용, 그로 인한 이용가 책정 모두 영향을 받게 됩니다. 하지만 주로 사용되는 AI 모델들은 정확도를 높이기 위해 많은 데이터를 학습하여 크기가 커진 것들이 대부분이었지요. ‘LLM’과 ‘LMM’의 형태가 마치 당연한 것처럼 여겨지기도 했어요. 물론 여러 종류의 모델 사이에 차이는 있었지만, 어쨌든 ‘큰(Large)’ 모델들임에는 틀림이 없지요. 그러니 개발, 배포, 2차 활용 과정에서 많은 리소스를 사용하고 비용도 많이 발생했습니다.

그런데 최근에는 활용할 AI 모델을 선택하는 과정에서 AI의 도입 규모와 구축한 AI 인프라를 고려해서 비용 효율까지 챙길 수 있게 되었습니다. 선택지가 다양해진 건데요. 앞서 말한 sLM도 이 경우에 해당되지만, 하나의 모델을 여러 버전으로 출시하는 사례가 있습니다. 대표적으로 AI 피드에서 지난 12월에 소개해 드린 적이 있었던 Gemini(제미나이) 1.0이 있습니다. Gemini는 ‘LMM’ 하면 떠오르는 대표적인 AI 모델인데요. 이전까지의 경쟁작들과 달리 여러 버전으로 출시되어서, AI 개발자분들의 머릿속에 각인된 모델이기도 합니다.🤓

제미나이 1.0’은 울트라(Ultra), 프로 (Pro), 나노(Nano)의 3가지 버전으로 나뉘어 있습니다. 복잡한 작업을 위해 ‘제미나이 1.0’을 사용해야 할 때는 ‘울트라’ 버전을 사용할 수 있습니다. 복잡한 작업에 맞는 모델이니, 그에 걸맞은 수준의 인프라 리소스가 필요하겠지요. 울트라 버전보다는 복잡성과 규모 부분에서 부담이 적지만, 확장성을 고려해야 하는 작업에서 ‘프로’ 버전을 사용할 수도 있습니다. 울트라 버전보다는 인프라 리소스 사용이 적을 테니, 그로 인한 비용도 절감할 수 있습니다.

 

최근 주목받는 온디바이스 AI 작업을 고려하여 상대적으로 가벼운 모델로 ‘나노’ 버전이 있습니다. 우리의 일상에 AI가 더 가까이 다가오게 되면서, 스마트폰, PC 등에 AI가 탑재되어 나오고 있고 냉장고, 세탁기 등의 생활 가전에서도 AI 도입이 트렌드가 되었습니다.🤓 이런 온디바이스 AI들은 이미 용도가 정해져 있는 기존 기기들에 AI가 결합하여 시너지를 내는 방향으로 도입, 출시되고 있는데요.

제미나이 울트라, 프로 버전을 이 경우에 사용하면, 많은 리소스를 사용하는 모델들이 디바이스의 성능을 방해하기도 할 거예요. 고사양의 AI 칩을 사용하여야 하니 디바이스의 단가가 올라가기도 할 것이고요. 제미나이 ‘나노’는 이런 상황에 딱 맞게 출시된, 리소스 사용량과 비용 모두 경량화한 버전인 거죠.😲

 

 



[ AI Pub : AI 인프라 전용 MLOps 솔루션으로 AI 인프라 관리하기 ]

AI를 도입하는 과정에서 솔루션을 사용해, AI 인프라를 관리하는 방법도 있습니다. 앞서 이야기한 다양한 버전의 AI 모델이나 sLM을 사용하는 것이 리소스 사용량 자체를 줄인다는 점에서 비용 절감에 기여하지만, 최선의 방법이라고 보기는 어렵습니다. 리소스 사용량이 상대적으로 적은 모델을 활용한다고 하더라도, AI 인프라 리소스를 그 모들에 적합한 수준으로 할당해 주지 못하면, AI 인프라에 유휴 리소스가 남으면서 크기가 작은 모델을 활용하는 의의가 없게 되거든요.

리소스가 남으면 좋은 것 아닌가, 하실 수 있는데요. 말 그대로 ‘유휴’라는 점에 주목해야 합니다. GPU의 기본 설정대로라면, 유휴 리소스를 다른 AI 모델에 동시에 할당할 수 없거든요. 오히려 AI 인프라의 리소스 규모 대비 아주 적은 양만 사용하는 비효율적인 운용이 될 수도 있습니다. 이 경우에 활용할 수 있는 것이 AI 인프라 전용 MLOps 솔루션입니다.🤓

AI 인프라 전문 기업인 TEN을 통해서 이 AI 인프라 전용 MLOps 솔루션을 사용하실 수 있습니다.😉 바로, AI 피드를 통해 몇 번 소개해 드린 적이 있었던 ‘AI Pub’인데요. AI Pub은 AI 개발, 학습 과정에서의 AI 인프라 관리에 초점을 맞춘 ‘AI Pub Dev’와 AI 서비스 배포 단계에서 AI 인프라를 관리하는 AI Pub Ops’로 나눌 수 있습니다. 왜 Dev와 Ops로 나뉘는지 궁금하실 수 있겠는데요. 바로, AI 개발, 학습 과정의 AI 인프라를 관리하는 관점이, AI 배포 후의 AI 인프라를 관리할 때와 다르기 때문입니다.

 

개인, 그룹 등을 단위로 GPU 리소스를 동시 할당해 주고, 회수 후 재할당 순서까지 관리할 수 있는 AI Pub Dev

AI 학습에서 인프라 리소스를 활용할 때는, 많은 사람이 다수의 GPU를 묶어 사용하게 됩니다. 기업 내에서 하나의 AI만 개발, 학습하는 것이 아닐 수도 있으니까요. 또는 AI를 개발, 학습하는 과정에서 여러 사람이 다수의 GPU를 동시에 사용해야 하는 경우도 있습니다. AI Pub Dev에서는 AI 개발, 학습 시에는 구축한 AI 인프라를 동시에 할당받아 사용하는 기능을 제공하는데요. AI 인프라의 사용률을 최대로 끌어올려 학습 기간을 단축할 수 있습니다. 또한 학습이 끝난 AI에 할당된 AI 인프라 리소스를 바로 회수하여 다른 모델에 할당해 주는 기능도 있답니다. AI Pub Dev의 이러한 기능들이 AI 인프라 사용의 효율을 챙길 수 있도록 해줍니다.

 

GPU를 100분할 하여 서비스에 할당해 줄 수 있는 AI Pub Ops

반면 AI의 운영 과정에서는 특정 인퍼런스스 서비스가 일정한 리소스를 점유한 상태가 지속됩니다. 학습 과정 동안만 AI 인프라 리소스를 사용하는 것이 아닌데요. 이 리소스를 유지하는 비용이 서비스를 운영하는 ‘원가’에 반영되게 됩니다. 따라서 서비스 운영에 맞춰 합리적인 규모의 AI 인프라 리소스를 할당해야지만 합리적인 원가로 서비스를 운영할 수 있어 이익을 낼 수 있게 되지요. 이제, 서비스를 배포하고 운영할 때는 인퍼런스의 문제로 AI 인프라 자원이 낭비되고 있다거나 유휴 상태로 방치되어 있는지 확인하는 것이 중요한 문제가 되는 것입니다.

AI Pub Ops는 이때 합리적인 규모의 할당을 도울 수 있도록 GPU 리소스를 100분할 하는 기능을 제공합니다. GPU를 1/100 단위까지 고려하여 AI 서비스에 나눠줄 수 있으니, 서비스가 필요 이상의 리소스를 점유하는 것을 최소화할 수 있게 됩니다. 또한 서비스의 운영 상태와 AI 인프라 리소스의 사용량, 상태를 확인하는 기능도 함께 제공하고 있습니다. AI 서비스가 안정적으로 운영 중일 때, 혹은 호출 문제 등의 이슈가 있을 때의 AI 인프라 리소스 사용량과 AI 인프라의 상태를 체크하여 이상 여부를 판별하고 관리할 수 있습니다.

 

 

 

AI 인프라는 AI 도입 과정에서 매번 다른 고민거리를 안겨줍니다.🤔 AI 개발, 학습에서는 어떻게 하면 한정된 AI 인프라 리소스로 학습을 빨리하거나, 최대한 많은 모델을 학습시킬 수 있을까, 라는 사용 관점에서의 효율이 고민이라 할 수 있습니다. AI 서비스를 배포하고 운영하는 과정에서는, 어떻게 하면 서비스를 안정적으로 운영할 수 있는 정도이면서 낭비가 없는 수준으로 AI 인프라 리소스를 사용해서 운영 비용을 절감할 수 있을까, 라는 고민을 계속 가져가게 됩니다.🤔 이 문제를 해결하는 방법은 AI 모델 단위, 그리고 솔루션 단위 등에서 다양하게, 복합적으로 시도해 볼 수 있습니다. 그 과정에서 오늘의 [AI, 더 쉽게] 콘텐츠가 떠오르신다면, TEN을 찾아 AI Pub을 이용해 보세요! 지금까지 에디터 SA였습니다.