¿Qué es Veo 3?

Una guía completa de Veo 3, el modelo de vídeo con IA insignia de Google DeepMind — qué genera, cómo funciona y cómo se compara con Sora y Runway.

Definición

Veo 3 es el modelo de vídeo con IA de tercera generación de Google DeepMind. Toma una indicación de texto — y opcionalmente una imagen de referencia — y genera un clip de vídeo corto y cinematográfico con audio nativo sincronizado. Veo 3 es el motor detrás de las experiencias de generación de vídeo de Google y también está disponible dentro de estudios multimodelo como VO3 AI, donde convive con Sora 2 de OpenAI y Seedance de ByteDance. Veo 3 se construyó específicamente para una salida de alta fidelidad y calidad cinematográfica, con una sólida adherencia a la indicación en cuanto a movimiento de cámara, comportamiento del sujeto e iluminación. La mayoría de los clips se renderizan en 4K hasta 8 segundos, suficiente para una toma protagonista, una escena de establecimiento o un solo momento de una secuencia. Como Veo 3 produce sonido junto con la imagen, cada clip se siente más completo de inmediato que los sistemas de texto a vídeo que entregan vídeo sin sonido por defecto.

Cómo funciona Veo 3

Bajo el capó, Veo 3 es un transformer de difusión entrenado con un conjunto de datos cuidadosamente seleccionado de vídeo, audio y texto. Cuando envías una indicación, el modelo primero planifica una representación de la escena — el sujeto, la trayectoria de la cámara, la configuración de iluminación, el paisaje sonoro — y luego elimina iterativamente el ruido de un tensor de vídeo latente hasta convertirlo en un clip a resolución completa, mientras un decodificador de audio emparejado produce una forma de onda coincidente. Si proporcionas una imagen de referencia, Veo 3 condiciona el latente con esa imagen para que el primer fotograma coincida y el movimiento posterior respete la composición y la profundidad. Todo el proceso se ejecuta en la infraestructura de TPU de Google y se expone a través de la misma barra de indicaciones multimotor dentro de VO3 AI — describes la toma, Veo 3 la renderiza y descargas un MP4 terminado.

Funciones clave

Salida cinematográfica en 4K

Veo 3 renderiza vídeo en auténtico 4K con color de calidad cinematográfica, listo para cualquier pantalla — feed social, corte de festival o anuncio comercial.

Audio sincronizado nativo

Cada clip de Veo 3 incluye audio coincidente — sonido ambiental, diálogo, banda sonora o efectos — generado junto con el vídeo.

Sólida adherencia a la indicación

Veo 3 respeta el movimiento de cámara, el comportamiento del sujeto y las indicaciones de iluminación de la indicación, así la toma sale tal como la describiste.

Clips de hasta 8 segundos

Cada generación de Veo 3 puede durar hasta 8 segundos, suficiente para una toma protagonista o un solo momento coherente de una secuencia.

Qué crean los creadores con Veo 3

Veo 3 está hecho para una amplia variedad de trabajos cinematográficos y comerciales. Dentro de VO3 AI, los creadores lo usan para:

Previsualización de películas

Directores y directores de fotografía hacen storyboards de secuencias enteras en indicaciones antes de rodar un solo fotograma en el set.

Videoclips

Los editores de videoclips generan secuencias surrealistas completas sin un equipo de rodaje ni una pantalla verde.

Anuncios comerciales

Los equipos de marketing entregan cortes en 4K listos para redes y tomas protagonistas de producto sin reservar un día de producción.

Contenido para redes

Los creadores convierten una indicación contundente en un reel vertical listo para publicar en una sola tarde.

Arte conceptual en movimiento

Los artistas conceptuales animan imágenes fijas en moodboards vivos para presentar un estilo y una atmósfera.

Secuencias de títulos

Los editores renderizan secuencias de títulos abstractas con banda sonora sincronizada en una fracción del tiempo habitual.

Veo 3 frente a Sora y Runway

Veo 3 vive en el mismo vecindario que Sora de OpenAI y los modelos Gen de Runway. Así es como tiende a diferenciarse en la práctica:

Veo 3 frente a Sora 2

Sora 2 se inclina por escenas complejas con varios sujetos y coherencia de largo alcance. Veo 3 se inclina por el detalle de calidad cinematográfica, el audio nativo y una estricta adherencia a la indicación. Dentro de VO3 AI puedes ejecutar la misma indicación en ambos y elegir el ganador.

Veo 3 frente a los modelos Gen de Runway

La fortaleza de Runway es la iteración rápida y un editor de vídeo profundo. La fortaleza de Veo 3 es la fidelidad de renderizado en el momento de la generación — menos tomas, más fotogramas cinematográficos al primer intento.

Veo 3 frente a los modelos de código abierto

Los modelos de vídeo de código abierto avanzan rápido en movimiento, pero aún se quedan atrás en audio, resolución y adherencia a la indicación. Veo 3 ofrece las tres cosas en un solo modelo.

Una breve historia de Veo

1
2024 — Veo 1
Google DeepMind anunció el primer modelo Veo, capaz de generar clips de vídeo en 1080p a partir de una indicación de texto con un control de movimiento limitado.
2
2025 — Veo 2
Veo 2 introdujo clips más largos, mejor control del movimiento de cámara y las bases de la generación de audio emparejado.
3
2026 — Veo 3
Veo 3 llega con renderizado completo en 4K, audio nativo sincronizado y una adherencia a la indicación drásticamente más sólida.
4
Hoy
Veo 3 está disponible dentro de estudios multimodelo como VO3 AI, donde convive con Sora 2 y Seedance tras una sola barra de indicaciones.

Vista previa

Preguntas frecuentes

Veo 3 fue creado por Google DeepMind, el laboratorio de investigación de IA dentro de Google. Es la tercera generación de la familia de modelos de vídeo Veo.

Veo 3 prioriza el detalle de calidad cinematográfica, el audio nativo sincronizado y una estricta adherencia a la indicación. Sora 2 es más fuerte en el movimiento complejo con varios sujetos. Ambos están disponibles dentro de VO3 AI.

Sí. El audio nativo sincronizado es una de las características que definen a Veo 3 — cada clip incluye sonido ambiental, banda sonora o efectos coincidentes.

Veo 3 admite hasta resolución 4K y una duración de clip de hasta 8 segundos, suficiente para una sola toma protagonista coherente.

Veo 3 está disponible dentro de los productos de vídeo de Google y a través de estudios multimodelo como VO3 AI, donde puedes cambiar entre Veo 3, Sora 2 y Seedance en un solo lugar.

El plan gratuito de VO3 AI te permite generar clips de Veo 3 sin tarjeta de crédito. Mejora a Pro o Studio para mayores resoluciones, clips más largos y derechos comerciales.

Text to Video Image to Video Ver Galería

Prueba Veo 3 dentro de VO3 AI

Abre el estudio VO3 AI y renderiza tu primer clip de Veo 3 — sin tarjeta de crédito.

Empieza gratis