본문 바로가기

AI Feed
Tech & Product/AI 뉴스룸

이미지까지 학습한 막강한 존재, LMM이 온다!

안녕하세요, 에디터 SA입니다. AI에 관해 이야기하자면 말할 거리가 한둘이 아닐 텐데요. 저도 여러분들과 AI를 이야기하고, 이슈를 전달해 드리면서 빠지지 않았던 주제가 있습니다. 바로 ‘LLM’입니다. 우리말로 ‘거대 언어 모델’로 불리는 LLM(Large Language Model)은 정말 국내외를 막론하고 많은 기업이 개발에 착수하고 있는데요. 최근 TEN에서 소개해 드렸던 것 중 LLM에 대한 콘텐츠들을 다시 보시면, “아! 이거?!” 😮 하실 거예요.

👉 메타의 라마2(LLama2), 심상치 않은 움직임으로 AI 시장을 노린다!

👉 심호흡하는 AI, 들어본 적 있나요?



그래서 오늘도 LLM에 대한 이야기를 준비했는가 하면, 답은 “아니요!”입니다. 오늘은 LLM의 패러다임을 바꿀 새로운 모델, 바로 ‘LMM’에 대해 이야기하려고요. 최근 라바(LLaVA) 1.5의 공개로, AI 서비스의 패러다임이 확장되는 것 같다며 기대하는 목소리가 높은데요. 이 라바(LLaVA)를 미국의 일부 기업 및 매체에서 LMM으로 분류합니다. 🤓

 

 


[ 그래서, LMM이 대체 뭔데요? ]

그러니까, 이제 이렇게 AI와 말과 글을 나누는 게 아니라 '이미지'로 말하게 된다는 거죠!

 

LMM은 Large Multimodal Model의 약자인데요. 우리말로 ‘대형멀티모달 모델’이라고 합니다. 본래는 LMM이라는 이름 대신에, ‘멀티모달 LLM'으로 불렀는데요. 이 모델이 주류로 떠오를 것이라는 전망이 지배적이고, LMM에 대한 개발, 공개의 열기가 점차 고조되면서 미국의 일부 기업과 매체가 기존의 LLM 모델과 구별, 차별화하기 위해 LMM이라고 이름을 붙여 부르게 되었습니다. 예를 들어, 구글의 ‘제미니(Gemini)’는 처음에 차기 ‘LLM’으로 공개 임박 사실을 알렸었는데요. 최근 ‘LMM’으로 분류 명칭을 변경하였지요. 😊

LMM은 언어를 기반으로 하는 LLM의 아쉬운 점을 커버해 주는 모델입니다. 기존의 '언어' 학습을 뛰어넘어 '이미지' 학습까지 더한 건데요. LMM은 이미지를 학습했기 때문에, 사용자가 꼭 텍스트를 입력할 필요가 없어집니다. 구글의 이미지 검색처럼, 이미지를 입력해도 이 이미지를 이해하고 답을 낼 수 있는 모델이에요. 이 이미지 입력 기능 덕분에, 언어 입력만으로는 한계가 있었던 모델의 활용 폭이 확장될 것 같습니다. 👏

 

 

 

LMM은 기존의 LLM과 이미지를 텍스트로 변환하는 비전 인코더, 이 비전 인코더와 LLM을 연결하는 '비전 언어 교차 모달 커넥터(vision-language cross-modal connector)' 등 아키텍처를 활용한다고 하는데요. 2단계 프로세스를 거쳐 LMM을 훈련한다고 합니다. 언젠가 ‘AI, 더 쉽게’를 통해서 더 자세히 다뤄볼 기회가 있으면 알아보고 싶은 내용이네요. 🤔

LMM에는 어떤 모델이 있는지 확인해 보시면, 라이징 스타로 떠오른 LMM의 위치가 더 잘 이해되실 것 같아요. 오픈AI의 'GPT-4V(GPT-4Vision)', 최근에 오픈 소스로 공개된 라바(LLaVA) 1.5, 올해 말 출시 예정인 구글의 ‘제미니(Gemini)’ 가 있습니다. AI 모델의 선두를 달리고 있는 글로벌 기업들은 물론 오픈 소스 진영에서까지 잇달아 LMM 모델을 공개하고 있는 상황이에요.

 

 


[ GPT-4V, LMM의 시작! ]

ChatGPT가 나왔을 때까지만 해도, 이런 전개는 상상도 못했습니다...

 

LMM이라는 이름은 최근에 지어졌지만, 이미지를 활용하는 모델은 올해 3월 등장했습니다. 오픈AI가 3월에 GPT-4를 공개했었지요. 이때부터 이미지의 활용이 상용화되었는데요. 이미 2022년, 바로 작년에 GPT-4의 이미지 학습을 마쳤다고 해요. 정말 놀라울 정도로 빠른 개발 속도, 패러다임 변화가 아닌가 싶습니다. 😮

GPT-4부터는 이미지를 업로드하고, 이미지에 대해 질문할 수 있게 됐고, 음성을 쿼리 입력으로 사용할 수 있게 되어서, 거대 언어 모델이 ‘다중 모드’로서의 모습을 갖추게 되었는데요. 예를 들어, 이전까지는 GPT에 영화 추천을 받기 위해 원하는 장르, 스토리, 배우의 구성 등을 모두 텍스트로 입력해서 전달하고 설명해야 했었는데요. GPT-4에서는 좋아하는 장르 또는 미장센이 포함된 이미지를 업로드하고, 비슷한 영화를 질문하거나, 영화에 대한 정보를 더 얻어낼 수 있게 된 것이지요. 👏

GPT-4V가 공개된 이후, 이미지 입력은 AI 모델 개발의 표준이 됐습니다. 빅테크는 물론 오픈 소스 커뮤니티까지 LMM 개발에 몰두하게 되었는데요. 그 결과 최근 메타가 발표한 '메타 AI'도 멀티모달 기능을 갖추고 있게 된 것이고, 라바(LLaVA)도 업데이트를 거듭해서 이미지 입력 기능을 포함한 1.5 버전으로 최근 재탄생하게 된 것이고요.

 

 

 

[ 모델의 시작은 GPT이지만, LMM이라는 말은 제미니(Gemini)가 먼저! ]

LMM이라는 모델의 시작은 오픈AI에서 했을지 모르겠지만, 이 모델이 LMM이라는 명확한 이름을 갖게 된 것은 구글의 덕이었습니다. 구글에서는 곧 발표할 모델인 ‘제미니’가 이미지와 동영상을 학습한 점을 큰 차별점으로 공개했는데요. 구글에서는 워낙 방대한 양의 이미지, 동영상 데이터를 보유하고 있으니, 거대 모델에 이 데이터들을 학습시키는 것이 아주 유리한 차별화 방법이었을 것이고, 또 당연하다고 생각할 법한 일이지 않나 싶어요. 🤔

구글의 제미니 공개 내용을 기준으로 해서 ‘LMM’이라는 명칭이 파생, ‘제미니’를 분류하여 부르게 되면서, AI의 성지인 미국에서도 곧 ‘LMM’이라는 말을 사용하기 시작했는데요. 이렇게 되면, 마치 구글이 ‘LMM’을 먼저 개발하거나 선두 주자인 것 같은 느낌이 들게 되지요. 이런 점을 염려했기 때문일까요? 오픈AI에서는 LLM에 이미지 입력을 통합한 기술적인 문제와 이를 통해 확보한 안전성 등에 초점을 맞춘 논문을 블로그에 공개했습니다. 그러니까, 지금 ‘LMM’이라는 이름이 붙기 전부터 오픈AI가 먼저 거대 멀티 모달 모델을 시도했고, 또 안전성까지 고려하는 주도권을 잡고 있다는 점을 보여주는 액션인 것이지요. 🤓

 

 


[ LMM도 오픈 소스! 라바(LLaVA) 1.5 ]

 

이제, 구글과 오픈AI의 대립에 오픈 소스들까지 참전하여 본격적인 삼파전 경쟁 구도가 형성되었습니다. 구글과 오픈AI의 각축전 사이에서, 기존 라바(LLaVA)의 업데이트 모델인 라바(LLaVA) 1.5가 깃허브를 통해 오픈 소스로 공개됐는데요. 오픈 소스라는 매력적인 공개 방식에 전 세계 AI 개발자들이 관심을 가질 수밖에 없겠지요. 그리고 그 관심에서 출발한 반응 또한 긍정적이에요. 오픈 소스 커뮤니티에서 라바 1.5가 GPT-4V의 대안으로 언급될 정도로 인기를 얻기 시작하고 있다고 하거든요. 😮

라바 1.5는 여러 생성 AI 구성 요소를 결합한 데에서 그친 게 아니라, 정확도까지 높일 수 있도록 조정을 거듭한 모델인데요. 기본 언어 모델은 메타의 ‘라마'를 기반으로 하는 오픈 소스 sLLM '비쿠나(Vicuna)'를 활용했다고 합니다. 왜 이름이 ‘라바’ 인지 짐작할 수 있는 부분이네요. 아무튼 이 ‘라바 1.5’는 벤치마크 테스트를 통해 다른 오픈 소스 LMM들보다 월등한 성능을 보여주었다고 합니다. GPT-4V의 오픈 소스 대항마로 주목받게 된 이유가 바로 여기에 있겠지요?

 

 

‘라바’의 학습에는 8개의 A100 GPU만 활용되었다고 합니다. 거대 AI 모델들은 인프라를 기반으로 한 비용 문제가 아주 큰 이슈여서, 효율적인 인프라 관리가 중요한데요. (TEN이 주목하고 있는 AI 개발의 어려움도 바로 여기에 있지요!) 이 ‘라바’의 개발 인프라 이야기를 알게 되고 나서 놀랄 수밖에 없었습니다. A100 GPU 8개 정도면, 어림잡아 하루 비용이 몇백 달러 정도이기 때문이에요. 효율까지 챙긴, 놀라운 오픈 소스 모델입니다. 👏

 

 

 

 

LLM에서 한발 더 나아간 LMM. 앞으로 AI 모델의 판도는 어떻게 바뀌게 될까요? LLM 모델 개발 소식이 끊임없이 들려오면서, 우리는 아주 자연스럽게 말과 글로 AI 서비스를 이용하는 상황을 머릿속에 그려보았었는데요. LMM을 기반으로 한 서비스가 배포되면 아주 많은 것이 달라질 것 같습니다. 예를 들어 배움이 부족하여 글자를 쓰고 읽기 어려운 사람들이나 몸이 불편하신 분들, 말로 설명이 어려운 대상을 설명해야 하는 경우 등등 다양한 부분을 고려할 수 있게 될 거고요. 좀 더 접근성이 향상된 AI 서비스를 접할 수 있게 되지 않을까요? 주식회사 텐이 만들고 싶은 ‘AI로운’ 일상으로 한 발 더 다가서는 느낌입니다. 에디터 SA는 다음에도 흥미로운 AI 소식들로 다시 돌아오겠습니다! 😊