본문 바로가기

AI Feed
Tech & Product/AI 뉴스룸

영상 업계를 뒤흔들 화제의 영상 AI '소라', 한 번 지켜 보라!

ChatGPT가 우리에게 안겨준 충격을 뛰어넘을 새로운 AI가 나올 수 있을까🤔, 생각했던 때가 있었습니다. 무려 1년도 채 되지 않은 일이지요. 일명 ‘컴퓨터식 답변’에 대한 인간의 고정관념을 깨부순 모델이었던 ChatGPT는 어느새 우리에게 제법 당연한 존재가 되어 있습니다. 궁금한 내용이 있을 때, 멋들어진 글을 써야 할 때, 모르는 외국어로 소통해야 할 때, 간단한 퍼블리싱 등 다양한 상황에서 도움을 받을 수 있는 도구로 기능하고 있습니다.

해가 바뀌자마자 우리에게 더 큰 놀라움을 안겨 줄 다음 타자가 나타났습니다. 소문을 들어 알고 계실지 모르겠습니다. 바로 동영상 AI ‘소라’인데요. 몇 개의 명령어로, 전문가의 촬영 기술과 그래픽 처리가 필요하지 않은 양질의 영상을 만들어냅니다. 이미 유튜브에서는 ‘소라’를 공개하면서 함께 업로드된 영상들을 보고 놀라움을 금치 못하는 영상 전문가, 촬영 스튜디오들의 리액션 영상이 넘쳐나고 있는데요.🤓  

그래서, 놀라운 건 알겠는데… 이 ‘소라’라는 AI가 도대체 어떤 AI인 걸까요?🤔 분명 궁금해하실 분들이 있을 것 같아, 새로운 AI ‘소라’가 어느 정도의 혁신을 만들어낼지, 어떤 변화가 다가오고 있는 건지 짐작해 볼 수 있는 정보들을 AI 피드에서 정리해 보고자 합니다.

 

 

 

[ 소라는 그럼 LMM인가요? ]

(출처: Introducing Sora — OpenAI’s text-to-video model, https://www.youtube.com/watch?v=HK6y8DAPN_0 )

소라는 오픈AI에서 현지 시각으로 2월 15일에 공개한 AI 서비스입니다. 머릿속으로 상상한 세상을 텍스트로 작성하면 영상으로 구현해 주는데요. 서비스의 형태로 세상에 제대로 모습을 드러낸 첫 LMM이나 다름없다고 보아야 합니다. LMM에 대한 자세한 설명은 TEN의 AI 피드 이전 콘텐츠에서 확인하실 수 있답니다.🙂

👉 LLM, 너 진짜 핫하다! 하루 하루 달라지는 LLM!
👉 LMM이 무엇인지 궁금하다면, 고개를 들어 제미나이 1.0을 보라!

‘소라’는 고품질의 비디오를 생성할 수 있도록 하기 위해, 다양한 데이터들을 대량 학습했다고 합니다. 종횡비, 해상도 등을 다양하게 구성한 비디오를 학습한 건데요. 텍스트를 영상으로 구현할 수 있도록 하기 위해, 캡션이 있는 영상 데이터를 중점적으로 학습했다고 합니다. 달리3(DALL·E 3)에 적용된 시각 데이터를 훈련해 언어 이해 품질도 높였다고 해요.🤓

 

(출처: Introducing Sora — OpenAI’s text-to-video model, https://www.youtube.com/watch?v=HK6y8DAPN_0 )

현재 공개된 정보만을 중심으로 보면, 이 모델은 텍스트 형태의 프롬프트나 스크립트를 영상으로 구현하고 있는데요. 텍스트를 영상으로 변환하기 위한 1차 접근 방식은 LLM의 방식을 따릅니다.🤓 다양한 캐릭터·행동·피사체와 배경 등에 대해 사용자가 입력한 짧은 프롬프트를 대형언어모델(LLM) GPT를 기반으로 상세한 캡션으로 변환시킬 수 있습니다. 이렇게 변환된 캡션이 복잡한 장면을 생성할 수 있는 사용자가 제시한 세부 정보로 기능하게 하는 방식입니다.

소라’는 분명 LMM이 맞지만, 현재 콘텐츠로 많이 소비되고 있는 최신 GPT 모델의 이미지 제작 기능에서 산출물에 포맷만 바뀐 방식인 셈이에요. 우리가 정의하는 ‘LMM’에 완전히 근접한 모델이자 서비스라고 보기에는 조금 아쉬운데요.🤔 다만 영상이 텍스트나 이미지보다 조금 더 복잡도가 높은 유형의 콘텐츠라는 점에서, AI 모델과 서비스가 한 발 더 발전했다는 점은 분명한 것 같습니다. 모두에게 ‘소라’가 공개되는 시점에는 완전한 ‘LMM’에 더 가까운 모습이지 않을까요? 혹은 GPT처럼, 버전 업그레이드를 거듭하면서 더 완전해질 수도 있겠고요.

 

 

 

[ 소라에서 주목해야 할 특징은 무엇인가요? ]

(출처: Introducing Sora — OpenAI’s text-to-video model, https://www.youtube.com/watch?v=HK6y8DAPN_0 )

아무튼, 이 ‘소라’의 멋진 영상들로 인해 전 세계가 시끄럽습니다. 지금까지 AI 모델들이 학습해 왔던 것은 텍스트 중심의 데이터였어서, AI에 깊은 관심이 있는 사람이 아니라면 이 모든 것이 신기하게 느껴지는 것이 당연한 일일 거예요.

물론 텐의 AI피드를 오래 찾아 주시며 AI 관련 소식들을 꾸준히 접하신 분들이라면, 동영상 AI의 등장이 마냥 놀라운 일은 아닐 것입니다. 영상을 제작하는 AI가 처음 등장한 것이 아니기도 하고요. 구글이나 메타 등에서 LMM의 개발 사실을 슬쩍 공개하기도 하고, 구글에서는 개발자 인터뷰에 앞서 인트로로 LMM을 시연하는 연출 영상을 넣은 적도 있었습니다.🙂

에디터 SA도 LMM을 ‘오픈AI’가 먼저 공개했다는 사실에 대한 놀라움만 있었을 뿐, ‘소라’의 등장 자체가 놀라운 일은 사실 아니었습니다.🤔 하지만 ‘소라’가 글로벌 테크 기업들이 개발 사실을 암시하던 영상 AI 모델들보다 먼저 공개된 이유가 있습니다. 바로 산출물의 길이와 현실감, 실제 업무와 호환될 수 있는 서비스 편의성입니다.

 

(출처: Introducing Sora — OpenAI’s text-to-video model, https://www.youtube.com/watch?v=HK6y8DAPN_0 )

‘소라’는 우리가 고사양 게임에서 접하는 물리엔진 수준으로 현실을 구현해 냅니다. 조도로 인해 연출되는 현실적인 풍경에 대한 구현도 가능해요. 예를 들면, 우리가 지하철 또는 기차를 타고 창밖을 볼 때, 낮에 바깥 풍경을 볼 수 있다가도 어두운 터널에 들어오면 창에 우리 모습이 비치는데요. 빛의 변화로 인해 유리에서 확인할 수 있는 시각적 변화가 나타난다는 것을 영상 데이터 학습으로 이해하고 있는 거예요. 텍스트 몇 줄로 이런 부분까지 연출할 수 있게 된 것입니다.

영상 퀄리티만 상승한 게 아닙니다. 영상의 길이도 늘어났습니다. 기존에 공개되었던 영상 생성 AI의 산출물은 기껏해야 20초 남짓한 길이의 영상이었는데요. ‘소라’는 1분 길이의 영상을 만들 수 있습니다. 보통 영화에서 광활한 자연 풍경, 마천루가 자리한 도시 풍경, 역동적인 밀림의 움직임 같은 것을 보여줄 때 1분 이상의 연출 장면을 할애하는 경우가 잘 없는데요. 이 점을 생각해 보면, 이 ‘1분’의 가치는 단순하게 볼 것이 아닐 것 같습니다.🤔

그렇다고 ‘텍스트’가 곧 영상 산출물로 바로 변형되어 튀어나오는 것도 아닙니다. 영상의 사이즈도 디바이스 기준으로 하고, 전체 해상도로 영상을 만들기 전에 작은 프로토타입 콘텐츠를 만들 수도 있습니다. 제작한 영상을 시사하고 재편집하고, 때로는 빠르게 관계자들에게 배포하기도 해야 하는 영상 업계의 프로세스를 반영한 것 아닐까 싶은데요. 이런 사용 편의성까지 보장된 AI 서비스라니, 영상 업계에 아주 큰 변화가 찾아올 것 같습니다.🤔

 

 

 

[ 그럼, 영상 업계에는 어떤 변화가 생길까요? ]

(출처: Introducing Sora — OpenAI’s text-to-video model, https://www.youtube.com/watch?v=HK6y8DAPN_0 )

‘소라’는 정적인 이미지를 움직임이 있는 영상으로 변환하거나 기존 비디오 영상을 확장하는 개념으로 산출물을 만들어내는데요. 그럼으로써 큰 변화가 찾아올 것으로 예상되는 첫 번째 영역은 그래픽 작업입니다. 공룡이나 괴물이 등장하는 장면도, 더 이상 컴퓨터 그래픽을 적용하여 만들어낼 필요가 없게 되겠지요. 오픈AI에서 예시로 공개한 영상에 ‘매머드’가 등장하는 것처럼, 우리는 서울 도심에 나타나는 공룡을 텍스트 몇 줄로 연출할 수 있게 될 거예요.

그 외에 아주 일상적인 그래픽 작업도 불필요해지는데요.🤔 예를 들어, 영화나 드라마에서 촬영하고 난 후에는 그래픽 작업을 거쳐 부자연스러운 요소들을 지우거나, 현실적으로 촬영이 불가능한 것들을 연출하는데요. 쉽게 생각하면, 주인공의 얼굴을 클로즈업한 장면에서, 주인공의 눈동자에 이를 촬영한 카메라가 반사되어 보이지 않는 모습들은 그래픽 작업을 거친 장면이에요. ‘소라’에게서는 이런 부분들에 대한 작업이 이미 된 상태의 영상을 내놓습니다. ‘소라’는 이미 카메라의 존재가 지워진 영상들을 학습하여 완성된 AI이므로, 영상에서 아예 카메라의 존재를 지워 내보낼 수 있지요.

 

(출처: Introducing Sora — OpenAI’s text-to-video model, https://www.youtube.com/watch?v=HK6y8DAPN_0 )

영상 제작 산업 내에서도 그래픽 작업에 드는 시간과 비용이 크기에, 그래픽 작업 중심으로 대체되고 변화될 수 있는 내용들을 예측해 보았는데요.🤓 사운드 역시 대체될 것으로 보입니다. 요새는 AI로 특정 가수의 음색을 구현해, 기존에 있던 노래들을 새롭게 들을 수 있는데요. 지금은 기존에 있던 것을 재편하는 방식이라면, 앞으로는 세상에 없던 새로운 음색, 사운드를 고음질로 만들어낼 수 있게 될 것입니다.

전문성과 시스템이 갖춰져 있지 않아도 영상을 만들 수 있게 되니, 전문 장비, 영상 작업 경험이 있는 이들이 대거 포진해 있던 동영상 콘텐츠 시장의 생태계도 바뀔 것으로 예상됩니다.🤔 텍스트 몇 줄로 영상을 만들 수 있으니까요. 우리가 알고 있는 미디어의 형태가 아닌 ‘소라’로 분류되는 새로운 콘텐츠가 생길 수도 있겠습니다. 영상화가 어려워 미뤄왔던 텍스트 콘텐츠들도 순차적으로 영상으로 전환될 수 있습니다.

 

 

 

(출처: Introducing Sora — OpenAI’s text-to-video model, https://www.youtube.com/watch?v=HK6y8DAPN_0 )

‘소라’에 대한 우려도 있습니다. ‘환각’에 대한 우려라던가, ‘딥페이크’로 인한 범죄의 우려도 있습니다. 오픈AI에서는 콘텐츠 전문 레드팀과 협력해서 모델 안정성 평가를 진행하고 있다고 대답했지만요. 글쎄요.🤔 ‘환각’은 출시한 지 몇 년이 지난 LLM에서도 완전히 해결하지 못한 문제인 데다, ‘딥페이크’로 인한 위험성은 서비스를 사용하는 사람에 의해 극대화되는 문제잖아요. 오픈AI에서 검토를 거듭하고 정책을 내놓는다고 해도, 당분간 우려와 불안의 시각도 뒤따를 것 같습니다.

또한 인프라의 문제도 있습니다. 소라는 달리로 이미지를 생성하는 것보다 더 많은 시간과 컴퓨팅 성능이 필요합니다. sLM 등 인프라 효율을 높이기 위한 다양한 시도가 이뤄지고 있지만, ‘소라’와 같은 고성능, 거대 규모의 AI 모델을 서비스하는 데에는 여전히 ‘데이터센터’라고 불릴 수준의 인프라가 구축되어야 한 것이 사실이지요. ‘소라’의 인프라 효율을 높이는 데에는 앞으로 긴 시간이 걸릴 것으로 보입니다. (오픈AI에 TEN의 AI Pub을 알려주어야 하는 건 아닐까요…🤔) 인프라의 효율적인 구축과 운영에 대해, 인프라 전문 기업 TEN의 에디터로서 다시 한번 생각해 보게 되는 부분입니다.

‘소라’가 아직 공식적으로 서비스를 출시한 것은 아닙니다. 그럼에도 존재 자체가 감탄과 염려를 동시에 낳고 있다는 것은, 공식 서비스 개시 이후부터는 더 큰 파문을 불러올 수 있다는 의미이겠지요. 오픈AI가 ChatGPT 이후에 새로운 AI 패러다임을 제시할 수 있을지, 올해 오픈 AI의 행보를 주의 깊게 지켜봐야 할 것 같습니다. 지금까지 에디터 SA였습니다. 🤓