TEXT TO VIDEO

2024년 2월 19일, explained

생성 AI가 이제 2막으로 들어섰다.

오픈AI의 비디오 생성 AI 소라를 이용해 만든 영상. 출처: 오픈AI
NOW THIS

챗GPT의 충격보다 더 강한 충격이 나타났다. 텍스트를 입력하면 동영상으로 만들어 주는 AI가 나왔다. 챗GPT 개발사인 오픈AI는 15일 비디오 생성 AI 시스템을 공개했다. ‘소라(Sora)’다. 하늘을 뜻하는 일본어에서 따온 이름이다. 소라를 이용하면 텍스트 입력만으로 최대 1분 길이의 고품질 영상을 몇 분 안에 제작할 수 있다.

WHY NOW

2022년에 미드저니가 처음 나왔을 때 사람들은 신기하게만 생각했다. 지금 초급 일러스트레이터들은 미드저니로 일자리를 잃고 있다. 소라 역시 영화 산업과 영상 산업에 파괴적인 영향을 미칠 가능성이 크다. 기술의 효과는 단기적으로는 과대평가되고, 장기적으로는 과소평가된다. 아마라의 법칙(Amara’s Law)이다. 지금 이 법칙이 순조롭게 진행되고 있다.

TEXT TO VIDEO

“빨간색 울 니트로 된 오토바이 헬멧을 쓴 30세 우주인의 모험을 담은 영화의 예고편. 푸른 하늘, 소금 사막, 영화 스타일, 35mm 필름으로 촬영.” 소라에 이렇게 입력하자 실제 영화 예고편 같은 영상이 몇 분 안에 만들어졌다. 등장인물은 실제 사람처럼 생생하고, 카메라의 움직임은 “영화 스타일”이다. 배경 음악만 입히면 할리우드 영화의 예고편이라고 해도 믿을 정도다.

학습

다른 생성 AI처럼 소라 역시 영상 데이터를 학습해 만들어졌다. 학습용 데이터를 만드는 과정에도 AI가 사용된다. 캡션을 작성하는 AI를 이용해 비디오에 텍스트 캡션을 생성하면 소라는 이런 영상을 패치(patch)라는 단위로 쪼개어 분석하고 학습한다. 오픈AI는 저작권에 문제가 없는 영상만 훈련에 사용했다고 했는데, 어떤 영상을 얼마나 많이 학습했는지는 밝히지 않았다.

물리 세계

소라는 이미지 생성 AI인 미드저니, 달리3 같은 창의적 도구라기보다 데이터 기반의 물리 엔진에 가깝다. 단순히 기발한 이미지를 생성하는 게 아니라 물리적 특성을 계산하고 영상을 렌더링한다. 소라가 만들어 내는 건 영상이지만, 영상은 여러 장의 정지된 이미지로 구성된다. 즉 프레임을 빠르게 넘겨 움직이는 것처럼 보인다. 소라는 프레임 간의 관계와 일관성을 이해하도록 훈련됐다.

약점

현재 모델은 개선할 점도 많다. 아직 복잡한 물리적 세계를 정확하게 구현하지 못한다. 사람이 쿠키를 한 입 베어 물어도 쿠키에 물린 자국이 없거나, 유리컵이 바닥에 떨어져도 깨지지 않는 오류가 있다. 러닝머신을 거꾸로 달리는 사람처럼 현실 세계에선 일어날 수 없는 움직임을 만들기도 한다. 여러 캐릭터와 개체 사이의 복잡한 상호 작용을 정확히 시뮬레이션하지 못한다.

위험

소라는 놀라운 기술이지만, 악용될 우려가 있다. 누구나 고품질 영상을 쉽게 만들 수 있게 되면 무엇이 진짜인지 구분하기가 어려워진다. 가짜 뉴스는 가짜 뉴스여서 문제고, 진짜 뉴스는 가짜 뉴스로 의심받아 문제가 된다. 선거에도 영향을 미칠 수 있다. 실제로 지난해 11월 아르헨티나 대선에선 유력 후보가 코카인을 흡입하는 영상이 SNS에 퍼져 논란이 됐는데, 알고 보니 AI로 만든 딥페이크 영상이었다.

안전

그래서 오픈AI는 부작용을 줄일 수 있는 기술도 함께 개발하고 있다. 예를 들어 사용자가 텍스트 입력 프롬프트에 폭력적이고 음란한 콘텐츠, 유명인의 얼굴을 활용한 콘텐츠의 생성을 요청하면 시스템은 영상 생성을 거부한다. 또한 사용자에게 영상을 제공하기 전에 생성된 모든 영상의 프레임을 검토해 사용 정책을 준수했는지 확인하는 이미지 분류 기술도 개발했다.

피드백

당분간 소라는 제한된 수의 창작자만 이용할 수 있다. 그래픽 디자이너, 디지털 아티스트, 영화 제작자가 대상이다. 오픈AI는 오남용 우려가 없는 전문 창작자들에게만 소라에 접근 권한을 부여해 피드백을 얻고, 소라를 전문 창작자에게 도움이 되는 모델로 발전시킬 계획이다. 일반 대중에는 언제 공개할지, 기존 제품과 결합할지, 별도 제품으로 내놓을지는 알려지지 않았다.

IT MATTERS

그동안 생성 AI의 결과물은 프로토타입이나 초안으로 사용돼 왔다. 그런데 소라는 다음 단계로 향하고 있다. 사람이 촬영한 영상에서 배경만 다르게 바꾸는 식으로 최종 제품을 만드는 데에도 활용될 수 있다. 불과 1년 전의 생성 AI 앱들이 신기술을 활용한 참신한 서비스에 그쳤다면, 이제 생성 AI는 인간의 문제를 구체적으로 해결하고 있다. 생성 AI가 이제 2막에 들어섰다.
 
다음 이야기가 궁금하신가요?
프라임 멤버가 되시고 모든 콘텐츠를 무제한 이용하세요.
프라임 가입하기
추천 콘텐츠
Close