차원이 다른 물리엔진을 탑제한 생성형 동영상 AI 'MAGI-1'

최근 동영상 생성 AI 기술 분야에서 혁신적인 소식이 들려오고 있습니다. 바로 중국의 AI 스타트업 SAND AI가 차세대 오픈소스 동영상 생성 모델인 ‘매지-1(MAGI-1)’을 공개했다는 소식인데요. 이 모델은 단순히 동영상을 생성하는 것을 넘어, 물리적 움직임을 정밀하게 구현하는 '세계 모델(LWM)'로서 높은 평가를 받고 있습니다. 이 블로그 포스팅에서는 매지-1이 무엇인지, 어떤 특징을 가지고 있는지, 그리고 동영상 생성 AI 시장에 어떤 영향을 미칠 수 있는지 자세히 알아보겠습니다.

매지-1(MAGI-1)이란 무엇인가?

매지-1은 SAND AI가 개발한 차세대 오픈소스 동영상 생성 모델입니다. 이 모델은 텍스트나 이미지를 입력받아 고품질의 동영상을 생성할 수 있으며, 특히 물리적 움직임을 매우 사실적으로 구현하는 데 강점을 가지고 있습니다. 매지-1은 디퓨전 트랜스포머(DiT) 아키텍처를 기반으로 구축되었는데, 이는 이미지 생성에 활용되던 확산 모델과 언어 모델의 기본인 트랜스포머의 장점을 결합한 것입니다.

매지-1의 주요 특징

오픈소스: 매지-1의 가장 큰 특징은 오픈소스 모델이라는 점입니다. 이는 누구나 매지-1의 소스 코드를 자유롭게 사용, 수정, 배포할 수 있다는 의미이며, AI 연구 및 개발 커뮤니티에 큰 기여를 할 수 있습니다.
물리적 움직임의 정밀한 구현: 매지-1은 프레임 시퀀스를 자기회귀 방식(autoregressive)으로 예측하여 동영상을 생성합니다. 이러한 방식은 물리적 움직임을 매우 정밀하게 구현할 수 있게 해주며, 기존 동영상 생성 모델과의 차별점을 보여줍니다.
DiT 아키텍처 기반: 디퓨전 트랜스포머(DiT) 아키텍처는 텍스트와 이미지를 독립적으로 처리하면서 두 모달리티 간의 상호작용을 극대화하여 뛰어난 영상 품질과 텍스트 이해력을 제공합니다.
대규모 모델: 매지-1의 가장 큰 모델은 240억 개의 매개변수를 가지고 있으며, 최대 400만 토큰의 컨텍스트 창을 지원하여 대규모 입력도 처리할 수 있습니다.
고정 청크(Chunk) 단위 처리: 매지-1은 전체 영상을 한 번에 생성하지 않고, 24프레임 단위의 고정 청크를 하나씩 디노이징(noise 제거)하는 방식으로 작동합니다. 이러한 설계는 시간 일관성과 확장성을 강화하며, 이미지-투-비디오(I2V) 과제에서 뛰어난 성능을 발휘합니다.
다양한 기술 적용: 매지-1은 블록-캐주얼 어텐션(Block-Causal Attention), 병렬 어텐션 블록(Parallel Attention Block), QK-Norm, GQA, SwiGLU, 소프트캡 모듈레이션(Softcap Modulation), 샌드위치 정규화(Sandwich Normalization) 등 다양한 기술을 적용하여 학습 효율성과 대규모 안정성을 확보했습니다.

매지-1, 어떻게 사용할 수 있을까?

매지-1은 높은 성능을 요구하기 때문에 일반 사용자가 직접 사용하기에는 다소 어려움이 있습니다. 최소 4개에서 최대 8개의 엔비디아 'H100' GPU가 필요하기 때문입니다. 현재는 SAND AI가 운영하는 플랫폼 ‘매지-프로덕트’를 통해서만 체험이 가능하며, 소스 코드와 모델은 각각 ‘매지-소스’, ‘매지-어텐션’에서 사용할 수 있습니다. 더 자세한 정보는 MAGI-1 공식 웹사이트 (https://magi-1.ai/ko)에서 확인할 수 있습니다.

매지-1이 동영상 생성 AI 시장에 미치는 영향

매지-1의 등장은 동영상 생성 AI 시장에 다음과 같은 긍정적인 영향을 미칠 것으로 예상됩니다.

기술 발전 가속화: 오픈소스 모델인 매지-1은 전 세계 개발자들이 자유롭게 활용하고 개선할 수 있기 때문에, AI 생성 비디오 분야의 빠른 발전을 촉진할 수 있습니다.
진입 장벽 완화: 매지-1의 등장으로 자금 부족으로 인해 AI 기술에 접근하기 어려웠던 개인이나 기업도 동영상 생성 AI 기술을 활용할 수 있게 되었습니다.
다양한 분야에서의 활용: 매지-1은 영화, 광고, 교육, 게임 등 다양한 분야에서 활용될 수 있습니다. 특히, 저비용 고효율의 동영상 제작이 가능해짐에 따라, 1인 크리에이터나 소규모 기업들도 고품질의 동영상 콘텐츠를 제작할 수 있게 될 것입니다.
경쟁 심화: 매지-1의 등장으로 기존의 동영상 생성 AI 모델 개발 경쟁이 더욱 심화될 것으로 예상됩니다. 이는 사용자들에게 더 다양하고 향상된 기능을 제공하는 AI 모델의 등장을 촉진할 것입니다.

2025년 AI 트렌드: 영상 제작의 대중화 시대

2025년에는 AI 기술이 더욱 발전하여 일상생활에서 더욱 다양한 방식으로 활용될 것으로 예상됩니다. 특히, 동영상 생성 AI 기술은 더욱 발전하여 누구나 쉽게 고품질의 동영상 콘텐츠를 제작할 수 있는 시대가 열릴 것으로 기대됩니다.

AI 에이전트의 활약: 개인화된 AI 에이전트가 등장하여 복잡하고 전문적인 작업까지 수행하며 업무 환경을 변화시킬 것입니다.
일상생활을 지원하는 AI: AI는 사용자의 일정을 관리하고, 필요한 정보를 제공하며, 의사 결정을 지원하는 등 일상생활 전반에 걸쳐 도움을 줄 것입니다.
지속 가능한 AI 인프라 구축: 에너지 효율을 높이고 탄소 배출량을 줄이는 등 지속 가능한 AI 인프라 구축에 대한 노력이 더욱 중요해질 것입니다.
책임감 있는 AI 구축: AI의 위험을 측정하고 평가하는 기준이 강화되어 더욱 안전하고 신뢰할 수 있는 AI 시스템이 구축될 것입니다.

SAND AI의 매지-1은 오픈소스 동영상 생성 모델로서, 동영상 생성 AI 기술의 발전과 대중화에 크게 기여할 것으로 기대됩니다. 매지-1을 통해 더 많은 사람들이 창의적인 아이디어를 시각화하고, 다양한 분야에서 혁신을 이룰 수 있기를 바랍니다. 앞으로 매지-1이 만들어갈 미래가 더욱 기대됩니다.

Samples

https://x.com/ai_for_success/status/1914308353918194086

https://x.com/Arp_it1/status/1914406447875809636

https://x.com/dreamingtulpa/status/1916035289300275372

https://x.com/AIWarper/status/1914387130165731583

궁금한 기록