Qué es Seedance 2.0

Arquitectura, capacidades técnicas y posición en el mercado

Visión general

Seedance 2.0 es el modelo de generación de video por IA más avanzado de ByteDance, lanzado en febrero de 2026 a través de su equipo de investigación ByteDance Seed.

A diferencia de modelos anteriores que generan clips mudos y requieren post-producción de audio, Seedance 2.0 genera video + audio en una sola pasada, con control "nivel director" sobre cámara, iluminación, movimiento y sonido.

Lo que lo define es su sistema de referencia multimodal "Omni-Reference": acepta texto, imágenes, video y audio como inputs simultáneos, permitiendo "dirigir" en lugar de solo "describir".

Datos técnicos clave

Especificación Valor
ResoluciónHasta 2K (720p estándar, 1080p con coste extra)
Duración4-15 segundos por generación
Frame rate24-60 fps
Aspect ratios21:9, 16:9, 4:3, 3:4, 1:1, 9:16
Max assets12 simultáneos (9 img + 3 video + 3 audio)
ModalidadesTexto + Imagen + Video + Audio
AudioEstéreo nativo (2 canales), 3 capas simultáneas
Tasa de éxito>90% de videos usables sin reintentos

Arquitectura: Dual-Branch Diffusion Transformer

La innovación central es el Transformador de Difusión de Rama Dual, que procesa video y audio simultáneamente en dos ramas especializadas:

  • Rama Visual: Procesa tokens espaciotemporales — los píxeles 3D y su trayectoria cinética a lo largo del tiempo.
  • Rama de Audio: Procesa tokens de forma de onda — características espectrales del sonido y ritmo acústico.
  • Puente de Atención (Attention Bridge): Capa de transformador que facilita transferencia bidireccional entre ambas ramas a nivel de milisegundo durante el denoising.

Esto permite Generación Audiovisual Conjunta: un impacto visual y su onda sonora se materializan simultáneamente en el espacio latente. ByteDance estima que esta eficiencia reduce el desperdicio computacional en un 80%.

Sobre este motor opera una capa de planificación semántica impulsada por el Seed 2.0 LLM, que interpreta instrucciones, descompone tomas y planifica la lógica espacial antes de delegar la ejecución visual a las ramas de difusión.

Sistema Omni-Reference

Seedance 2.0 acepta hasta 12 archivos de referencia por generación:

Tipo Máximo Límite
Imágenes9N/A
Videos315 segundos c/u
Audio315 segundos c/u
Texto1 prompt30-200 palabras

Prioridad de assets

Cuando no alcancen los slots: (1) Imagen de identidad del personaje, (2) Video de referencia de movimiento/cámara, (3) Audio de referencia, (4) Imágenes de ambiente/estilo.

Evolución desde versiones anteriores

  • 1.0
    T2V/I2V con narrativa multi-shot, prompt following y salida 1080p. Sin audio nativo.
  • 1.5
    Generación audio-visual conjunta, lip-sync, control de cámara, coherencia narrativa. Arquitectura MMDiT, SFT + RLHF.
  • 2.0
    Referencia multimodal "all-round", audio estéreo, edición/continuación por prompt, multi-shot con audio, control directoral completo.

Comparativa con competidores

Modelo Ventaja principal Limitación vs Seedance
Sora 2 (OpenAI) Física más realista, simulación de mundo Sin sistema de referencia multimodal
Veo 3.1 (Google) Audio nativo comparable Menos control de cámara
Kling 3.0 (Kuaishou) Más económico y rápido, audio nativo Menor calidad cinematográfica
Runway Gen-4 Motion Brush interactivo Sin audio nativo
Vidu Q3 Audio-video conjunto, 16s/gen Sin mezcla de múltiples referencias
Pika Simplicidad de uso Menos duración, menor consistencia

Diferenciador clave de Seedance 2.0

Sistema de referencia multimodal (mezcla de assets) + audio nativo estéreo + consistencia de personaje + multi-shot automático + edición/continuación por prompt.