본문 바로가기
얼리어답터 리뷰/IT정보

오픈AI의 혁신적 발표 소라(Sora)로 비디오 생성 AI의 새로운 시대 열렸네

by 엔돌슨 2024. 2. 21.
반응형

OpenAI의 혁신, 비디오 생성 AI '소라(Sora)' 비디오 생성 AI 시대

 

 

 

오픈 AI의 최근 발표된 소라(Sora) 서비스는 충격이었습니다. 이제 유튜버는 노숙자가 되겠네요! 

정말 생성 인공지능(AI) 기술의 새로운 지평을 열었습니다.

 

소라(Sora)라 명명된 비디오 생성 AI 모델은 텍스트 기반 입력으로 고품질의 비디오 콘텐츠를 실시간으로 생성하는 능력을 선보였습니다.

 

챗GPT 같은 인공지능이 멀티모달로 텍스트와와 이미지를 만들어 내는데, 이걸 넘어서 비디오 콘텐츠 생성으로 AI의 영역을 확장하는 중대한 진전을 의미합니다.

 

 

소라(Sora)의 비디오 생성형 AI 의 핵심

 

 

'소라'는 텍스트 입력에 기반하여 최대 1분 길이의 비디오를 생성할 수 있는 능력을 갖추고 있습니다.

생생한 감정을 표현하는 캐릭터, 복잡한 동작, 그리고 피사체와 배경의 정확한 세부 정보를 포함하는 장면을 생성할 수 있음을 의미합니다.

 

 

 

 

* sora 명령어:

검은색 가죽 재킷, 빨간색 긴 드레스, 검은색 부츠를 신은 멋진 여성이 네온 간판으로 가득한 일본 도쿄 거리를 자신감 있고 자연스럽게 걷는다

 

 

 

또 이런 인공지능AI 모델은 프롬프트에서 요구된 내용을 넘어 그 내용이 실제 현실 세계에서 어떻게 존재하는지에 대한 이해하고 영상을 제작한다고 합니다.

 

 

 


'소라'의 또 다른 혁신적인 특징은 기존의 정지 이미지나 동영상을 확장하거나 누락된 프레임을 채울 수 있다는 점입니다. '소라'가 단순한 텍스트-비디오 변환을 넘어서는 다양한 멀티미디어 콘텐츠 생성에 활용될 수 있음을 시사합니다.

 

이제 새상에 존재하지도 않는 배우와 배경에서 바탕으로 영상을 만들 수 있습니다. 그리고 교육용 및 창의적인 활용으로 영상을 삽입할 때도 활용할 수 있겠죠.

 

 

 

'소라'의 기술적 기반은 확산 모델과 트랜스포머 아키텍처

 


'소라'는 확산 모델(Diffusion Model)을 기반으로 하여 초기에 정적인 노이즈로 보이는 비디오에서 시작해 여러 단계에 걸쳐 점차적으로 노이즈를 제거하며 원하는 영상으로 변환합니다. 이런 과정은 트랜스포머(Transformer) 아키텍처와 결합되어 높은 확장성과 성능을 실현합니다.

 

 

중요한 점은 '소라'가 비디오와 이미지를 '패치'(Patch)라는 더 작은 데이터 단위로 처리한다는 것입니다. GPT와 같은 대규모 언어 모델에서 텍스트 토큰을 사용하는 방식과 유사합니다. 그래서 다양한 지속 시간, 해상도 및 종횡비를 아우르는 시각적 데이터에 대한 광범위한 훈련이 가능합니다.

 


소라 서비스의 딥페이크 우려

'소라'와 같은 비디오 생성 AI의 발전은 놀라운 창의적 가능성을 제시하지만, 동시에 윤리적, 사회적 문제를 야기할 수 있는 여지도 내포하고 있습니다. 

 

딥페이크 기술을 통한 위조 영상 생성과 같은 문제는 AI의 발전과 더불어 점점 더 중요한 고려사항이 되고 있습니다. 오픈AI는 이러한 문제에 대응하기 위해 모델의 안전한 사용을 위한 중요한 조치를 취하려고 하고 있습니다. 잘못된 정보, 혐오스러운 내용, 편견 등을 식별하는 데 도움이 되는 도구의 개발에 힘쓰고 있다고 합니다.

 

 

Sora의 등장은 인공지능 AI 기술이 어떻게 현실 세계를 이해하고 시뮬레이션할 수 있는 능력을 개발하고 있는지를 보여주는 중요한 사례라고 인식됩니다.

 

인공일반지능(AGI) 달성을 향해 가는 중요한 이정표라고 볼 수 도 있죠. 멀티모달 AI의 시대가 본격적으로 열리고 있음을 알립니다.

 

 

https://www.youtube.com/watch?v=HK6y8DAPN_0

 

아직 Sora 소라는 출시전 서비스입니다. 발표만 한 것인데, '소라'를 통해 창의적인 영상 콘텐츠의 새로운 기회가 열렸고, 촬영장비도 없이 영화 한 편이 뚝딱 나오는 수준이 될 것 같다는 생각이 듭니다. 이제 수많은 촬영팀도 필요 없고, 오래 걸리던 애니메이션 작업도 쉽고 빠르게 작업하게 되겠죠?

 

아무래 생각해도 영화 매트릭스 밖에 생각이 안납니다. 이렇게 인공지능이 현실세계를 다 이해하면, 정말 가상세계로 구현된 세상속에서 사람들이 살아갈지 걱정이네요. 인공지능이 만든 영상을 구분할 수도 없을테니깐요.