본문 바로가기

AI Feed
Tech & Product/AI 뉴스룸

자기의 일은 스스로 하자♬ 알아서 배우는 AI가 나왔다고?

안녕하세요, 에디터 SA입니다. 오늘은 오랜만에, AI 모델들의 현주소를 알아볼까 합니다. AI와 관련하여 알아볼 것이 여전히 많기도 하고, 특히 최근에는 AI 인프라 관련하여 TEN이 잘 알고 있는 만큼, 그와 관련된 주제의 이야기와 소식들을 많이 전해 드렸는데요.

지금까지 그래왔듯, AI 모델의 성능은 더 나아지고, 활용도는 더 다양해졌으며 생각지도 못한 방식으로 우리가 쌓아온 데이터를 학습하고 답을 내놓고 있습니다. 그래서 주기적으로 AI 모델의 현주소가 어떠한지 체크하고, 앞으로의 방향에 대해서도 알아볼 필요가 있는데요. 오늘의 AI 피드가 바로 그런 시간이 되겠습니다. 그럼, 최근의 AI 모델 관련 소식은 어떤 것이 있는지, 함께 알아보겠습니다.

 

 

 

[ 영상만 보고도 말을 배우는 AI ]

DenseAV (출처: https://mhamilton.net/denseav)

이제, AI는 텍스트 데이터로 언어를 학습하지 않게 되었습니다. 우리가 지금까지 알고 있던 LLM, LMM 등의 모델은 어쨌든 텍스트로 된 데이터를 학습해야, 언어 기반의 스크립트를 이해하고 연산한 답을 내놓을 수 있는데요. MIT에서 새롭게 내놓은 AI 모델은, 영상으로 언어를 학습한다고 합니다. 최근 우리에게 유튜브로 모든 것을 학습하고, 책과 텍스트로 정보를 습득하지 않는 세대가 등장한 것처럼요.

MIT에서 논문을 통하여 공개된 ‘덴스AV(DenseAV)’는 텍스트 입력 없이 듣고 보는 것만으로 언어를 학습하도록 설계된 AI 모델입니다. 아이들이 말을 배울 때 주변 환경을 관찰하며 시각과 소리 사이의 연관성을 학습하는 것과 같은 방식으로 AI가 언어 데이터를 학습하는 것인데요. 마치 AI가 인간 아이의 지적 수준에 이를 정도로 발달했다는 이야기처럼 들리기도 합니다만, 그렇지는 않습니다. 동영상을 시청하면서 소리와 시각 사이의 연관성을 학습하는 방식이거든요. 예를 들면, 우리가 유튜브에서 먹방을 보고 있을 때, ‘이 떡볶이의 떡이 쫄깃해요.’라는 소리와 함께 나오는 장면이 떡볶이와 떡이라고 연결 짓는 거죠. 사전 훈련된 언어 모델이나 주석이 달린 데이터셋을 사용하지 않고, 완전 백지상태에서 언어 의미를 음성과 영상으로 학습한다는 게, 참으로 놀랍습니다.

 

Most Contrastive Learners Cannot Localize Sound or Language (출처: https://mhamilton.net/denseav)

덴스AV가 이미지를 픽셀 단위로 학습하기 때문에 중심 대상과 배경을 구분할 수 있다고는 합니다만, 이 AI 모델이 얼마나 높은 정확도의 답변을 내놓을 수 있을지는 미지수입니다. 소리의 내용과 장면이 완전히 일치하는 영상만 존재하는 것이 아니기 때문이죠. 우리가 만들어 낸 영상 데이터에는 은유와 상징이 들어있기도 하고, 음성으로 주요 내용을 전달하고 자연 풍경이나 해외 휴양지 모습을 보여주는 등 시각적인 요소는 단지 ‘거드는 역할’만 하는 경우도 있으니까요. 장면에 대한 인간의 해석이 포함된 영상이 학습 데이터에 포함되어 있으면, AI 모델의 답이 객관성을 담보하지 못할 수도 있겠습니다.

하지만, 이 모델에 학습시킬 데이터를 어떤 종류, 방향으로 정하느냐에 따라 활용 범위가 무궁무진하다는 점에서 가치가 있습니다. 예를 들어, 다양한 동물들의 표정을 학습하고, 이를 패턴화해서 동물과의 의사소통을 가능하게 할 수 있죠. 머지않은 미래에, 덴스AV를 기반으로 한 AI 서비스로 함께 사는 반려동물의 의사 표현을 이해할 수 있게 될지도 모르겠습니다.

 

 

 

[ 중국이 영상 AI의 판도를 뒤집을 수 있을까요? ]

"A day with the Balloon Man" generated by Kling (출처: https://www.youtube.com/watch?v=NNggr6wwtrk)

최근 중국에서 공개한 영상 AI가 있습니다. ‘클링(Kling)’이라고 불리는 이 모델은 최대 2분 길이의 비디오를 생성할 수 있고, 초당 30프레임, 1080p까지의 영상 품질을 보장합니다. 획기적인 영상 AI로 주목받았던 오픈AI의 ‘소라’보다 더 나은 성능인데요. 이런 AI 모델이 심지어 ‘소라’보다 빨리 일반 공개되었습니다. ‘소라’의 출시를 기다리고 있던 사람들의 이목이 모두 ‘클링’으로 쏠릴 수밖에요.

클링이 공개된 방식도 독특한데요. 소라 생성 영상 중 유명세를 얻은 '에어 헤드(air head)'의 패러디한 영상을 클링으로 제작해 공개한 것입니다. 크리에이티브 에이전시 샤이키즈가 소라로 제작한 것과 흡사해서, AI 모델의 선두 기업으로 불리는 오픈AI의 기술력과 비교했을 때 전혀 떨어져 보이지 않는다는 평가를 받았습니다. 클링 영상의 장면 구성과 움직임이 기대 이상으로 자연스러웠거든요. 그래서인지 실감 나는 액션 장면이라던가, 몰입감을 높일 수 있는 사실적인 고해상도 영상을 만드는 데에 적합한 모델이 될 것이라는 기대 평도 있었답니다.

 

"A day with the Balloon Man" generated by Kling (출처: https://www.youtube.com/watch?v=NNggr6wwtrk)

조금 복잡할 수 있더라도 텍스트로 프롬프트만 잘 작성한다면, 클링이 만들어낼 수 있는 영상의 범위는 소라 못지않게 다양할 것으로 보이는데요. 아주 세세한 부분에서 차이는 있겠지만, 이 부분은 클링이 현재 공개된 수준에서 학습 데이터의 양적, 질적 부분을 보완하면 개선할 수 있을 것으로 보입니다.

클링이 대중에 공개된 것은 맞지만, 중국에 한정되어 있습니다. 중국 전화번호가 있어야 공개 데모로 영상을 제공하고 있기 때문에 아직 우리가 직접적으로 접해볼 경로는 없습니다. 그런데도 미국 등 세계 각국의 AI 관련 기업, 전문가들이 클링을 테스트해 보고자 백방으로 노력하고 있다고 하네요. 이쯤 하면, 오픈AI의 소라는 어떻게 되어가고 있는지 궁금해질 수밖에 없는 부분입니다. ‘소라’에 대한 새로운 소식을 듣게 되면, 에디터 SA가 여러분들께도 알려 드릴게요.

 

 

 

[ 저는 AI니까, 제 문제는 제가 알아서 해결할게요 ]

LLM에 복잡한 스크립트 또는 프롬프트를 입력하면, 어떤 결과를 내놓는지 알고 계시는가요? 대부분의 LLM은 기존 학습 데이터를 기반으로 하여 문제를 해결해 냅니다. 그 결과 우리가 받아 보게 되는 답변 또는 해결 결과는, 우리의 기대에 못 미치는 경우도 종종 있습니다. 우리가 알고 있는 일반적인 AI 모델은 자연어만 사용해 정보를 처리합니다. 그래서 수치, 기호적 추론이 필요한 작업에는 취약한 편입니다. ‘환각’ 같은 경우를 제외하더라도, 활용한 데이터의 수준이 깊지 않고, 내용이 구체적이지도 않을 때의 답답함, 아마 ChatGPT를 포함한 LLM을 활용해 보신 분들이라면 공감하실 거예요.

이제 앞으로의 LLM은 좀 다른 모습이 될 것 같습니다. LLM이 자율적으로 해결 프로그램을 생성해서 문제를 해결하는 기술이 등장했거든요. 이제 LLM은 우리의 질문을 해결하기 어렵다고 판단하면, 간단한 파이썬 프로그램을 생성해 파이썬 인터프리터가 생성된 코드를 실행한 후, 답을 내놓을 수 있습니다. LLM이 언어 그 이상의 기능, 그러니까 '프로그램을 만드는 프로그램'이 되기도 하는 것입니다.

 

직접 프로그램을 만들어서 문제를 해결하면, 기존의 데이터를 단순히 인용하여 가져오는 것보다 추론 과정을 명확히 설명할 수 있다는 점에서 모델의 투명성이 향상되겠지요. 그리고 잘못된 답변에 대해 프로그램을 수정할 수도 있습니다. 실제로 이 방식을 도입한 GPT-4는 기호 추론 작업, 명령 수행 및 텍스트 분류 작업에서 정확도를 90% 이상 달성했다고 하는데요. 다른 오픈 소스 LLM에서도 성능 개선 지표를 확인할 수 있었다고 합니다. 앞으로 다양한 방면에서 개선된, 더 나은 LLM을 활용할 수 있게 될 것 같네요.

우리가 어떤 것을 배울 때 타인의 이론과 자료를 단순히 외우면 금방 잊게 되거나 응용할 수 없는 것처럼, AI 역시 비슷한 문제를 겪고 있었던 것 같습니다. 원리를 이해하여 응용까지 할 수 있는 진짜 ‘배움’을 이제 AI도 할 수 있게 되었네요. 그동안 AI 모델의 정확도를 높이기 위하여 큰 비용을 들여 재훈련을 하는 경우가 있기도 했었는데요. 향후 등장할 LLM 모델들은 스스로 문제를 해결할 수 있으므로 번거롭고 비용이 많이 드는 일련의 과정을 거치지 않아도 되겠습니다. 무엇보다도, 이 문제 해결 방식이 가져다줄 AI 모델에 대한 비용 절감이 어떤 변화, 혁신을 불러올지 기대되네요.

 

 

 

AI가 인간과 동일하게 사고하고 행동하는 것은 아니지만, AI가 직면한 문제와 해결 방식, 그리고 새롭게 적용한 방식들은 인간의 문제 해결 방식, 사고 능력과 많이 닮아 있습니다. 우리의 뇌를 기반으로 하여 연구가 지속되고 있는 것이 이유일 수 있겠지만, 가장 효율적인 방법을 찾기 위한 다방면의 탐구가 최근의 AI 모델 경향을 이끌었다고 봐야 하겠지요. 인간처럼 사고하고 행동하는 AI를 만나는 것은 먼 미래의 일이겠지만, 적어도 인간의 방식을 흉내 낼 수 있는 지점에는 다다른 것 같기도 합니다. 지난 몇 년 간의 AI 모델의 변천사를 생각해 보면 놀라울 따름이에요. 다음 주, 혹은 가까운 시일 내에 AI 모델과 관련 연구에 또 큰 변화가 생기겠지요? 그때에도 함께 AI에 대한 이야기를 같이 나누기로 해요. 지금까지 에디터 SA였습니다.