본문 바로가기

AI Feed
Tech & Product/AI, 더 쉽게

LMM, 지금 뭐해? AGI를 바라보는 LMM의 오늘

AI 피드의 [AI, 더 쉽게]나 [AI 뉴스룸]에서 LLM은 단골 소재입니다. 정확도를 포함한 성능 개선은 물론이고 새로운 기능을 추가하거나 용도에 맞게 변형되는 등 다양한 방면에서 발전하고 있어, 주기적으로 관련 소식을 알고 계실 필요가 있기 때문이에요. 그러다 보니, LMM의 근황에 관해 알려드린 적은 비교적 적었던 것 같습니다.

LMM은 멀티모달모델로 불립니다. 처음에는 LMM이 어색하게 느껴지던 때도 있었습니다. AI, 하면 ChatGPT를 떠올리는 사람들이 워낙 많기 때문에, 챗봇의 연장선에서 이해하는 경우도 많이 있었어요. 하지만 지금은 AI에 대해 조금만 찾아보아도 바로 접할 수 있는 기본 개념이 되었습니다. 그리고 현재, LMM도 LLM과 구분되는 명확한 방향성을 가지고 변화하고 있습니다. 오늘 [AI, 더 쉽게]에서는 LMM이 어떻게 변화하고 있는지, 대표적으로 알아두면 좋을 모델은 무엇이 있는지 살펴보겠습니다.

 

 

 

[ LMM, 더 유능한 AI를 넘어 AGI를 꿈꾸며 ]

영화에서 나오는, 인간과 동등하게 사고하고 소통할 수 있는 AI는, AI 개발자라면 누구나 한 번쯤 가져봤을 꿈일 거예요. 우리는 이런 AI를 AGI, 인공일반지능이라고 부릅니다. 마침, AI 피드에서 AI의 기본 개념에 관해 설명한 콘텐츠가 있답니다. AI 개발자가 아니라거나 이제 막 AI에 관심이 생기신 분들이라면, AI 피드에서 쉽게 설명한 AI 기본 개념에 관해 확인해 보세요.

👉 혹시, AI '뉴비' 이신가요? ANI, AGI, ASI 쉽게 정리해 드립니다

AGI의 등장이 아직 먼일이라는 전문가 의견이 아직 지배적이긴 하지만, 최근 들어 AGI에 대한 언급이 늘어나고 있답니다. 공개적으로 AGI 개발에 나섰다고 밝힌 곳도 꽤 됩니다. 왜 LMM에서 갑자기 AGI를 이야기하나 싶으실 텐데요. LMM은 텍스트의 형태가 아닌 데이터로도 학습과 연산을 하는 모델이기 때문에, 상황에 따라 다양한 데이터를 학습하고 읽어내는 AGI와 맥락상 닿아 있기 때문입니다. 예를 들면, GPT-4o가 영상과 이미지를 인지하여 연산하는 LMM이지만, AGI의 초기 형태라는 평가를 받는 것을 생각해 볼 수 있습니다.

그래서 LMM이 궁극적으로 도달하게 될 방향은, 우리가 ‘AI’를 상상할 때 떠올리는 영화 속 AI, 즉, AGI라고 전제할 수 있습니다. LLM이 스크립트나 프롬프트를 인지하는 텍스트 방식의 범위 내에서 정확도 상승을 꾀하는 것과는 방향이 많이 달라졌습니다. 물론, LMM도 입력한 내용과 의도를 정확히 이해하고, 적확한 답변을 내놓는 것이 미시적 관점의 발전 방향이겠지만요.

LMM의 개발, AGI로의 진전 과정에 있어 많은 돈이 들기 때문에, 오픈AI, 구글, 메타 등 소수의 글로벌 기업들이 독주하는 분야가 될 가능성이 높습니다. 하지만, 궁극적으로 도달하고자 하는 바가 이상적인 동시에 명확히 보이는 모델이라는 점에서, 더 나은 LMM 개발을 향한 글로벌 테크 기업들의 경쟁 구도, 그로 인해 달라질 AI 산업의 변화를 오래 주목해야 하겠습니다.

 

 

 

[ 메타, 첨단 멀티모델 카멜레온으로 오픈AI 견제 중! ]

LMM 중 주목할 만한 모델에 메타의 카멜레온이 있습니다. 카멜레온은 단일 요소에서 다중 양식을 처리한다는 특징이 있습니다. LMM의 일반적인 개발 방식은 텍스트나 이미지 등 다른 양식을 처리하기 위해 복수의 모델을 하나로 결합하는 것인데요. 카멜레온을 포함하여, 제미나이, GPT-4o 등 우리가 흔히 알고 있는 글로벌 테크 기업들의 AI 모델 몇몇은 단일 모델에서 한꺼번에 다양한 데이터 양식을 처리하는 방향으로 개발되었습니다. 이미 비슷한 방식으로 개발한 모델이 있음에도 카멜레온을 주목할 만한 모델이라고 말씀드리는 이유는, 메타에서 직접 “제미나이보다 구조적으로 앞선 모델”이라고 밝혔기 때문입니다.

LMM을 만들어내는 방식으로 앞서 말씀드린, 복수 모델을 하나로 결합하는 것을 ‘후기 융합(late fusion)’이라고 부릅니다. 쉽게 말하자면 이미지 처리를 위해 훈련된 모델, 텍스트 처리를 위해 훈련된 모델, 영상 처리를 위해 훈련된 모델들을 연결, 이미지 및 코드와 같은 다른 양식을 텍스트로 변환한 후 다시 토큰으로 변환하는 것입니다. 작동이 잘 되기는 하지만, 데이터 양식 간의 정보를 통합하고 이미지와 텍스트가 혼합된 시퀀스를 생성하는 능력에서 아쉬움이 있는 방식입니다.

 

반면, 카멜레온은 처음부터 단일 모델에서 이미지, 텍스트, 코드 등 다중 양식이 혼합된 데이터로 훈련하는 ‘초기 융합 토큰 기반 혼합 모달(early-fusion token-based mixed-modal)’ 방식을 사용합니다. 카멜레온은 이미지도 단어를 처리하는 방식처럼 개별 토큰으로 변환한다고 해요. 텍스트, 코드, 이미지 토큰이 통합된 단일 체계의 어휘를 사용함으로써 텍스트, 코드, 이미지 토큰이 모두 포함된 시퀀스에 동일한 아키텍처를 적용할 수 있게 했습니다. 이렇게 되면 단일 모델에서 처음부터 다중 양식이 통합된 토큰으로 훈련할 수 있고, 텍스트로 변환하지 않고도 이미지와 코드를 직접 분석하고 해석할 수 있다고 합니다.

구글 제미나이도 초기 융합 접근 방식을 사용하고 있어 카멜레온과 유사하기는 한데, 생성 단계에서 별도의 ‘이미지 디코더’를 사용합니다. 카멜레온은 토큰을 처리하고 생성하는 방식이라는 점에서 두 모델의 차이점이 생기게 되는 것이지요.
오픈AI의 GPT-4o도 초기 융합 접근 방식을 사용하고 있습니다. 카멜레온과 동일하게, 단일 모델에서 처음부터 멀티미디어 토큰으로 훈련, 텍스트로 변환하지 않고도 비전과 오디오를 직접 분석하고 해석할 수 있는 엔드 투 엔드 모델이에요. 카멜레온의 경우 기존 LMM의 문제점 중 하나로 꼽혔던 성능 저하를 극복했고, 사용자 선호도 평가에서 기존 LMM 대표 모델들보다 높은 점수를 받았다고 밝혔는데요. 동일한 구조의 GPT-4o가 있고 워낙 주목받는 모델이다 보니, 우선은 확실하게 우위에 있다고 판단한 제미나이를 짚어, “제미나이보다 구조적으로 낫다”며 이야기를 한 것이 아닐까 싶네요.

 

 

 

[ 이제 GPT 앞에 Chat은 빼실게요! GPT-4o ]

Greg Brokman's X - A GPT-4o generated image (출처: https://x.com/gdb/status/1790869434174746805)

오픈AI가 AI 선두 주자라는 사실은 설명이 딱히 필요하지 않을 것 같습니다. 설립 목적 자체가 AGI 개발인 만큼, GPT-4o를 통해 그 의지와 방향성을 여실히 보여주고 있는 모습인데요. ‘챗’ GPT라는 이름과 채팅창을 연상하는 스크립트 페이지가 만든 이미지가 여전히 익숙한 대중에게 GPT의 이미지를 새로 만들어 가기 위한 공개 영상과 공개 방식 역시 돋보였습니다. 예를 들어 GPT-4o를 새로 공개할 당시 사용된 AI의 음성이, 영화 her에서 나온 AI '사만다'와 비슷하게 느껴졌던 것 등이 있겠네요.

이미 챗봇 이상의 기능을 제공하고 있는 오픈AI의 새로운 모델 중, 우리에게 신선한 충격을 안긴 것은 아무래도 앞서 언급한 'GPT-4o' 모델일 거예요. GPT-4o를 사용해 생성한 최초의 이미지, 혹시 보셨나요? 오픈AI 사장이 X를 통해 공개했었는데요. '챗GPT'의 스크립트와 달리 3을 통해 생성한 이미지와 비교하였을 때 퀄리티 측면에서 월등하게 앞서 있습니다. 더 사실적이고요. 이전까지는 디테일 같은 부분에서 현실성이 없어지는 아쉬움이 있었는데요. (생성한 이미지 속의 텍스트가 이상하게 구현된다거나…) GPT-4o로 생성한 이미지에서는 그런 모습을 찾아볼 수 없습니다.

GPT-4o는 기존 'GPT-4' 'GPT-4V' 'GPT-4 터보' 등 기존 모델보다 더 빠르고 저렴하며, 오디오와 비전 같은 입력으로부터 더 많은 정보를 유지하는 등 명확한 개선점이 있습니다. 함께 ‘4’로 묶이는 모델들 가운데에서, 단연 압도적인 성능을 자랑합니다. 기술적으로는 기존에 대형언어모델(LMM)을 구동하기 위해 텍스트와 이미지, 음성 부분을 따로 담당하는 모델들을 통합했던 것을 넘어, 모델 3개를 하나로 통합했다는 점을 눈여겨볼 만합니다. GPT-4o 역시 앞서 메타의 사례에서 이야기한 초기 융합 토큰 기반 혼합 모달에 해당합니다. 단일 모델에서 처음부터 멀티미디어 토큰으로 훈련, 텍스트로 변환하지 않고도 비전과 오디오를 직접 분석하고 해석할 수 있습니다. 그 결과 품질, 사실성, 텍스트 등 내용을 전달하는 멀티미디어 내 세부적인 요소들의 정확도 등에서 향상된 부분을 확인할 수 있게 되었다고 하네요.

 

 

 

[ 일론 머스크의 직감이 이번에도 먹힐까? xAI ]

GROK을 내세운 xAI 홈페이지 (출처: https://x.ai/)

지금까지 AI 모델 이야기를 하면 빠질 수 없는 기업들에 대한 이야기를 해왔습니다. 오픈AI, 메타, 구글 등이 우리에게 친숙한 글로벌 테크 기업이자 AI 선도 기업일 텐데요. 최근 추가된 후보로는 일론 머스크의 xAI를 꼽을 수 있습니다. 세계 AI 스타트업 중 2위에 해당하는 수준의 투자금을 끌어모아 막대한 자본력을 구축한 기업입니다. 일론 머스크는 전기차, 우주 기반 통신망 사업을 넘어 AI까지 진출하고 있습니다. 일론 머스크의 행보를 사실상 미래 산업이라고 꼽히는 분야들 전반에서 확인할 수 있습니다.

일론 머스크의 AI 사업은 2023년 7월 시작되었습니다. 당시 회사를 설립하면서, 일론 머스크는 오픈AI와 경쟁해 AGI를 개발한다고 밝혔었는데요. 일론 머스크의 평소 언행을 포함하여 그간 사업적 행보 때문인지 진지하게 받아들이는 사람들이 많지 않았었습니다. (사실 저도…) 특히나 AI 중에서도 AGI를 지향점으로 내세우다니, 그에 준하는 기술적 기반이 갖춰진 상태인 것인지 의심스럽다는 생각이 든 것도 사실이고요. 하지만 대규모 펀딩을 진행하는 모습을 보면서, 일론 머스크가 어느 정도 진심인지 알 수 있었습니다.

일론 머스크는 xAI 투자자 대상 프레젠테이션에서 xAI의 AI 챗봇 그록(Grok)의 차세대 버전 모델, 그러니까, LMM에 가까운 모델이 되겠지요? 이 모델의 학습과 운영에 10만 개의 AI 칩이 필요하며, 이를 슈퍼컴퓨터로 통합 구축해 내년 가을까지 가동 준비를 마치겠다는 계획을 발표했었는데요. 엔비디아의 GPU를 중심으로, 델과 슈퍼마이크로 가 합심하여 xAI의 슈퍼컴퓨터를 제작합니다. xAI가 사실상 AI 산업의 후발주자임에도 불구하고, 일론 머스크의 사업 감각과 방식, 남다른 비즈니스적 견해 때문인지 AI 인프라의 주요 강자들이 모여드는 모습인데요. xAI가 다음에 출시할 AI는 과연 기존 AI 모델들을 뛰어넘는 남다른 성능이 갖춰져 있을지, 일론 머스크 표 LMM에 관해 관심을 기울여 보아야겠습니다.

 

 

 

일상에 도입될 AI 중 가장 접근성을 보장할 수 있는 AI이기도 한 LMM의 오늘, 어떻게 보셨나요? 다른 어떤 것보다, LMM의 흐름이 LLM과 다르다는 점을 확인하셨을 거로 생각합니다. 텍스트 외에 다양한 맥락의 데이터를 다루는 모델은 더 복잡하고 정교하며, 앞으로 나아갈 방향도 이를 바탕으로 더 고도화되어 가는 과정일 거예요. LLM에 비하면 더 많은 시간 개발과 연구가 필요한 상황이지만, LMM이 명확한 이상향인 AGI를 갖고 있는 분야인 만큼, 우리가 짐작하지 못한 다양한 방향으로 변모하겠지요. 우리 두 눈으로 직접 AGI가 등장하는 것을 보게 될 날이 금방 오게 될까요? 그날까지 AI 피드와 함께, AI의 오늘과 내일을 같이 공부해 나갈 수 있었으면 좋겠네요. 지금까지 에디터 SA였습니다.