Audio y Sonido

Generación nativa de audio sincronizado con el video

Audio generado, no pegado

A diferencia de otros modelos, Seedance 2.0 genera audio junto con el video en el mismo proceso de difusión (Dual-Branch). El audio nace con el video, no se "pega" después.

3 capas simultáneas de audio

Cada output puede contener hasta 3 capas simultáneas:

Dialogue (Diálogo)

Voz de personaje con lip-sync automático. Soporta 8+ idiomas (inglés y chino confirmados). El modelo evalúa el tono emocional y adapta microexpresiones faciales.

SFX (Efectos de sonido)

Efectos sincronizados con eventos visuales. Pasos sobre grava, clic metálico, tintineo de vidrio — el modelo genera muestras en sincronismo con los frames de colisión.

BGM (Música de fondo)

Música adaptada al mood de la escena. El modelo puede generar pista musical alineada con el ritmo visual.

Comportamiento por defecto

El modelo infiere sonido del contexto visual. Un personaje caminando sobre grava genera pasos automáticamente. Una espada desenvainada produce sonido metálico.

Para controlar esto:

Para silencio selectivo
The scene is completely silent except for wind
Sintaxis compacta para capas de sonido
Sound: rain bed + distant train hum

Vocabulario acústico

El modelo responde a texturas materiales ("clic metálico", "pasos crujientes sobre grava") y descriptores de espacialidad ("reverberación de eco" para interiores colosales, "sonido amortiguado" para submarino/claustrofóbico).

Timestamps de audio

Para sincronización precisa, usa anclas temporales:

Con timestamp — preciso
SFX: thunder crack at 3s. Lightning illuminates the scene at the thunder crack.

Sin timestamps, el modelo hace su mejor estimación — generalmente decente pero no frame-perfect.

Lip-sync

Funciona en 8+ idiomas. Para mejores resultados:

  • Referencias de rostro: alta resolución, bien iluminadas, frontales
  • Eliminar fondo de la imagen de referencia mejora consistentemente la sincronización
  • Audio en formato MP3 (WAV y AAC pueden causar fallos silenciosos)
  • El lip-sync se degrada con movimiento facial excesivo

Conflicto motion + diálogo

Motion complejo + diálogo simultáneo degrada el lip-sync. Si necesitas diálogo, mantén la cámara relativamente estable en el rostro.

Beat-sync (videos musicales)

Al subir una referencia musical, el motor acústico identifica picos de forma de onda e inserta cortes de cámara y transiciones luminosas sincronizados con el beat.

Para beat-sync, describe energía y mood en lugar de coreografiar cada transición:

Enfoque correcto para beat-sync
High energy, fast-paced, dynamic camera movements matching the beat. @Audio1 as background music. Cuts aligned with bass hits.

El modelo genera cortes, movimientos de cámara y efectos sincronizados con el ritmo automáticamente.

Instrucciones de audio en el prompt

Los prompts pueden incluir instrucciones de sonido como parte del brief:

  • "only the sound of rain"
  • "sound effects synchronized with laughter"
  • "ambient sound only, no background music"
  • "voiceover narrating the scene"

Desactivar audio nativo

Sí, puedes mutar el audio generado y reemplazarlo en post-producción. Workflow común: mantener SFX y BGM del modelo, mutar el diálogo IA, y añadir voiceover grabado.

En API (fal.ai), usa el parámetro generate_audio: false para generar sin audio.

Limitaciones conocidas

  • Distorsión ocasional de audio (reconocido oficialmente)
  • Solo formato MP3 para lip-sync confiable
  • Audio-to-Video como modo dedicado aún "coming soon" en algunas plataformas
  • Sincronización no es frame-perfect sin timestamps explícitos