Audio y Sonido
Generación nativa de audio sincronizado con el video
ℹ Audio generado, no pegado
A diferencia de otros modelos, Seedance 2.0 genera audio junto con el video en el mismo proceso de difusión (Dual-Branch). El audio nace con el video, no se "pega" después.
3 capas simultáneas de audio
Cada output puede contener hasta 3 capas simultáneas:
Dialogue (Diálogo)
Voz de personaje con lip-sync automático. Soporta 8+ idiomas (inglés y chino confirmados). El modelo evalúa el tono emocional y adapta microexpresiones faciales.
SFX (Efectos de sonido)
Efectos sincronizados con eventos visuales. Pasos sobre grava, clic metálico, tintineo de vidrio — el modelo genera muestras en sincronismo con los frames de colisión.
BGM (Música de fondo)
Música adaptada al mood de la escena. El modelo puede generar pista musical alineada con el ritmo visual.
Comportamiento por defecto
El modelo infiere sonido del contexto visual. Un personaje caminando sobre grava genera pasos automáticamente. Una espada desenvainada produce sonido metálico.
Para controlar esto:
The scene is completely silent except for wind
Sound: rain bed + distant train hum
✓ Vocabulario acústico
El modelo responde a texturas materiales ("clic metálico", "pasos crujientes sobre grava") y descriptores de espacialidad ("reverberación de eco" para interiores colosales, "sonido amortiguado" para submarino/claustrofóbico).
Timestamps de audio
Para sincronización precisa, usa anclas temporales:
SFX: thunder crack at 3s. Lightning illuminates the scene at the thunder crack.
Sin timestamps, el modelo hace su mejor estimación — generalmente decente pero no frame-perfect.
Lip-sync
Funciona en 8+ idiomas. Para mejores resultados:
- ▸ Referencias de rostro: alta resolución, bien iluminadas, frontales
- ▸ Eliminar fondo de la imagen de referencia mejora consistentemente la sincronización
- ▸ Audio en formato MP3 (WAV y AAC pueden causar fallos silenciosos)
- ▸ El lip-sync se degrada con movimiento facial excesivo
⚠ Conflicto motion + diálogo
Motion complejo + diálogo simultáneo degrada el lip-sync. Si necesitas diálogo, mantén la cámara relativamente estable en el rostro.
Beat-sync (videos musicales)
Al subir una referencia musical, el motor acústico identifica picos de forma de onda e inserta cortes de cámara y transiciones luminosas sincronizados con el beat.
Para beat-sync, describe energía y mood en lugar de coreografiar cada transición:
High energy, fast-paced, dynamic camera movements matching the beat. @Audio1 as background music. Cuts aligned with bass hits.
El modelo genera cortes, movimientos de cámara y efectos sincronizados con el ritmo automáticamente.
Instrucciones de audio en el prompt
Los prompts pueden incluir instrucciones de sonido como parte del brief:
- ▸
"only the sound of rain" - ▸
"sound effects synchronized with laughter" - ▸
"ambient sound only, no background music" - ▸
"voiceover narrating the scene"
Desactivar audio nativo
Sí, puedes mutar el audio generado y reemplazarlo en post-producción. Workflow común: mantener SFX y BGM del modelo, mutar el diálogo IA, y añadir voiceover grabado.
En API (fal.ai), usa el parámetro generate_audio: false para generar sin audio.
Limitaciones conocidas
- ▸ Distorsión ocasional de audio (reconocido oficialmente)
- ▸ Solo formato MP3 para lip-sync confiable
- ▸ Audio-to-Video como modo dedicado aún "coming soon" en algunas plataformas
- ▸ Sincronización no es frame-perfect sin timestamps explícitos