Cómo optimizar la latencia de audio en Windows 11

W11 » Aplicaciones para Windows 11 » Cómo optimizar la latencia de audio en Windows 11

Windows 11 hereda una pila de audio optimizada capaz de trabajar con búferes pequeños si el controlador lo soporta.
Las APIs AudioGraph y WASAPI (IAudioClient3) permiten a las aplicaciones solicitar latencia baja en modo compartido.
Los controladores modernos declaran tamaños mínimos de búfer y coordinan mejor el flujo de datos con el sistema.
Actualizar drivers, desactivar mejoras y ajustar búferes en la DAW reduce de forma práctica la latencia percibida.

Cuando empiezas a notar que el sonido de tu PC con Windows 11 va “con retraso” —por ejemplo, tocas una nota en tu teclado MIDI o haces clic en un vídeo y el audio llega unas décimas de segundo tarde— la experiencia se vuelve desesperante. Esa diferencia de tiempo entre lo que haces y lo que oyes es la latencia de audio, y si trabajas con música, juegos competitivos o realidad virtual, esos milisegundos importan, y mucho.

Aunque pueda parecer que “Windows 11 es así y no hay nada que hacer”, la realidad es que el sistema incorpora una pila de audio muy avanzada heredada de Windows 10, con mejoras específicas para reducir los retardos tanto en reproducción como en grabación. Si entiendes cómo funciona esa arquitectura y ajustas bien controladores, buffers y APIs, puedes recortar la latencia de manera notable sin renunciar a la estabilidad ni a la calidad de sonido.

Qué es la latencia de audio y por qué notas tanto el retraso

La latencia de audio es el tiempo que tarda una señal de sonido en recorrer toda la cadena, desde que se genera (por ejemplo, cuando hablas por un micrófono o pulsas una tecla en un instrumento virtual) hasta que sale por los altavoces o auriculares.

En Windows 11 podemos hablar de varios tipos de latencia claramente diferenciados pero relacionados entre sí; entenderlos ayuda a localizar el cuello de botella:

Latencia de reproducción (render): es el retraso desde que una aplicación envía un búfer de audio al sistema hasta que tú lo escuchas.
Latencia de captura: es el tiempo desde que el micrófono capta el sonido hasta que la aplicación recibe esos datos de audio de entrada.
Latencia de ida y vuelta (round-trip): suma de captura + procesamiento + reproducción. Es la que más afecta al tocar instrumentos virtuales, monitorizar voz en tiempo real, etc.
Latencias asociadas a la interacción, como “tocar la pantalla -> sonido”, donde se suma el retardo táctil al de audio.

Cuando comentas que tu portátil con Windows 11 tiene alrededor de 100 ms de retardo, hablamos de una latencia de ida y vuelta bastante alta para producción musical. Para tocar de forma cómoda, se suele buscar estar claramente por debajo de 20 ms totales, y a ser posible en la franja de 5-10 ms.

Cómo funciona la pila de audio de Windows 11

Windows 11 hereda y mejora la pila de audio introducida en Windows 10, que ya venía con cambios profundos para recortar latencia sin obligar a usar siempre modo exclusivo o ASIO. De forma muy simplificada, el camino típico del audio en modo compartido es:

La aplicación escribe datos de audio en un búfer que gestiona el motor de audio de Windows.
El motor de audio procesa esa señal, aplica mezclas, conversiones de formato y efectos (los famosos APO u objetos de procesamiento de audio).
El resultado se coloca en otro búfer intermedio.
El controlador del dispositivo de audio (del fabricante u HDAudio genérico de Microsoft) lee ese búfer y lo envía al hardware.
El propio hardware puede añadir efectos adicionales antes de que el audio salga por los altavoces o auriculares.

En el camino inverso, para la captura, ocurre lo mismo pero al revés: el hardware y el controlador llenan un búfer con los datos del micrófono, el motor de audio los procesa y, finalmente, la app los recibe cuando están listos.

Un detalle clave es que todo este flujo se organiza por tamaños de búfer, que representan “trozos” de audio que el sistema va moviendo en intervalos regulares de tiempo. Antes de Windows 10, esos búferes solían rondar los 10 ms y el propio motor de audio añadía unos 6-12 ms extra según el tipo de datos. Hoy, con Windows 10 y 11, el motor se ha optimizado hasta trabajar con alrededor de 1,3 ms de retardo interno para reproducción y prácticamente 0 ms para captura.

La gran diferencia ahora es que ya no se obliga a usar siempre el clásico búfer de 10 ms. A partir de Windows 10, el controlador del dispositivo puede anunciar qué tamaños mínimos soporta: por ejemplo, 2 ms, 3 ms o 5 ms, lo que abre la puerta a configuraciones de baja latencia en modo compartido si la app lo solicita.

Modo compartido, modo exclusivo y ASIO: ventajas e inconvenientes

En Windows hay tres grandes formas de hablar con el dispositivo de audio si buscas controlar la latencia:

Modo compartido de Windows (Motor de audio): es el que se usa por defecto para prácticamente todo: navegador, reproductores, apps del sistema… Todas las aplicaciones comparten el mismo dispositivo de salida y el motor mezcla y ajusta formatos. Es cómodo y flexible, pero cada paso extra suma algo de latencia.
Modo exclusivo: una aplicación abre el dispositivo de audio “en exclusiva” y evita el mezclador del sistema, comunicándose casi directamente con el controlador. Esto reduce latencia, pero ningún otro programa puede usar ese dispositivo a la vez y tú pierdes parte de la flexibilidad de Windows.
ASIO (Audio Stream Input/Output): es un modelo de controlador desarrollado originalmente por Steinberg que también trabaja de forma exclusiva y orientado a baja latencia profesional. Muchas interfaces de audio externas traen su propio driver ASIO y las DAW lo soportan de forma nativa.

Tanto el modo exclusivo de WASAPI como ASIO son muy efectivos para bajar la latencia, pero tienen peajes claros: incompatibilidades, falta de mezcla del sistema, y necesidad de soporte específico en las aplicaciones. Por eso Microsoft ha ido reforzando el modo compartido con APIs modernas para poder conseguir latencias muy bajas sin renunciar a que varias apps reproduzcan a la vez.

Mejoras de Windows 10 y 11 para reducir la latencia

Con la llegada de Windows 10, y mantenido en Windows 11, Microsoft ha tocado tres áreas clave para recortar retardo en la mayoría de equipos:

Optimización interna del motor de audio: se bajó drásticamente la latencia propia del motor tanto en reproducción como en captura.
Control mucho más fino de los tamaños de búfer: los controladores compatibles pueden declarar rangos de tamaños soportados, desde el valor clásico (~10 ms) hasta tamaños de 1 ms, 2 ms, 3 ms, etc.
Modo especial de baja latencia: cuando una app solicita búferes por debajo de un determinado umbral, Windows entra en un modo de gestión de recursos que prioriza todos los hilos e interrupciones relacionados con esa ruta de audio para evitar saltos o chasquidos.

El efecto práctico es que, incluso sin tocar nada, cualquier aplicación estándar ya se beneficia de una pequeña reducción de latencia respecto a sistemas antiguos. Y si desarrollas software de audio o usas hardware moderno con drivers actualizados, puedes apurar todavía más.

Ahora bien, para que todo esto funcione, es crucial que:

El controlador de audio esté adaptado a Windows 10/11 y soporte estos tamaños mínimos de búfer.
La aplicación sepa pedir esos búferes pequeños mediante las APIs adecuadas (AudioGraph o WASAPI con IAudioClient3).

API AudioGraph: baja latencia con un modelo sencillo

AudioGraph es una API moderna de la Plataforma Universal de Windows pensada para escenarios interactivos, multimedia y creación musical. Su ventaja principal es que ofrece un modelo de programación relativamente sencillo (gráficos de nodos, callbacks claros) y, al mismo tiempo, opciones específicas para trabajar en baja latencia.

El punto clave para controlar el retardo en AudioGraph es la propiedad AudioGraphSettings::QuantumSizeSelectionMode, que permite elegir cómo se determina el tamaño del “quantum” o bloque de procesamiento:

SystemDefault: usa el tamaño de búfer por defecto del sistema, normalmente ~10 ms. Es la opción más estable, pero no la más rápida.
LowestLatency: indica a Windows que utilice el tamaño mínimo de búfer admitido por el controlador de ese dispositivo.
ClosestToDesired: te deja definir un número de muestras deseado y el sistema escoge el valor más cercano que admita el hardware.

Un patrón típico cuando se quiere exprimir la baja latencia es crear el AudioGraph con QuantumSizeSelectionMode.LowestLatency, dejando que sea el propio sistema el que negocie con el controlador el tamaño mínimo posible.

Hay dos detalles importantes para usuarios avanzados:

AudioGraph añade un pequeño búfer extra en la ruta de captura para que la sincronización entre captura y reproducción sea más sencilla para el desarrollador.
También puede insertar otro búfer adicional en reproducción cuando se usan tamaños de más de 6 ms, lo que explica que, a igualdad de hardware, WASAPI puro pueda rascar algún milisegundo menos.

WASAPI con IAudioClient3: control total sobre la latencia

Para las aplicaciones que necesitan exprimir al máximo el hardware, WASAPI sigue siendo la opción más potente. A partir de Windows 10, la interfaz IAudioClient3 añade justamente lo que faltaba para gestionar tamaños de búfer y formatos con precisión quirúrgica en modo compartido.

Con IAudioClient3, una aplicación puede:

Consultar el formato y periodicidad actuales del motor de audio para un endpoint concreto (método GetCurrentSharedModeEnginePeriod).
Obtener el rango completo de tamaños de período (búfer) soportados para un formato determinado (GetSharedModeEnginePeriod).
Inicializar un stream compartido con un periodo específico, siempre que esté soportado (InitializeSharedAudioStream).

Esto permite, por ejemplo, que una DAW:

Descubra cuál es el rango de tamaños de búfer legales para el dispositivo.
Seleccione el más pequeño que ofrezca estabilidad suficiente en el equipo concreto.
Opcionalmente, pida trabajar en un formato exacto para evitar resampling en el motor de audio.

Además, Microsoft recomienda que las aplicaciones que usen WASAPI y persigan baja latencia apoyen su procesamiento en las colas de trabajo en tiempo real (RT queue) o usen MFCreateMFByteStreamOnStreamEx y etiqueten sus tareas como “Audio” o “ProAudio” en lugar de crear hilos al margen del planificador optimizado. De este modo, el propio sistema puede priorizar estos hilos cuando entra en modo de baja latencia.

Por último, es importante asignar la categoría de audio adecuada y decidir si se usa procesado en bruto (raw mode) o no. El modo sin procesado puede reducir algo la latencia, pero desactiva el procesamiento de señal que el OEM haya configurado (ecualización, mejoras de micrófono, etc.), lo que puede conducir a señales menos “pulidas” o formatos que una app no espera.

Controladores de audio y tamaños mínimos de búfer

Si el sistema operativo es el cerebro y las APIs son el lenguaje, el controlador de audio es el traductor que realmente sabe con qué puede lidiar el hardware. Desde Windows 10 Anniversary Update (1607), los drivers pueden declarar con precisión cuáles son sus límites de búfer a través de propiedades específicas, como DEVPKEY_KsAudio_PacketSize_Constraints2.

Con esta capacidad, un controlador puede indicar:

Cuál es el tamaño mínimo absoluto de búfer que soporta el dispositivo, en tiempo (por ejemplo, 2 ms) y en muestras.
Diferentes restricciones según el modo de procesamiento de señal (por ejemplo, un valor en modo “default”, otro en modo “movie”, etc.).

El sistema se asegura de que cualquier restricción específica de modo sea siempre mayor o igual que el mínimo absoluto; si no, simplemente las ignora. Con esto se evita que un driver mal configurado bloquee las capacidades reales del hardware.

En el mundo real, esto se traduce en que algunos portátiles con códecs HDAudio modernos permiten trabajar con búferes de tan solo 128 muestras (≈2,66 ms a 48 kHz), mientras que otros más antiguos o con drivers poco cuidados se quedan obligatoriamente en tamaños cercanos a los 10 ms.

Coordinación entre controlador y sistema operativo

Otra pieza que influye en la latencia y en la estabilidad del audio es la forma en que el controlador coordina el flujo de datos con Windows. Microsoft puso a disposición de los fabricantes un conjunto de nuevas rutinas (DDIs) para:

Indicar de manera explícita qué fragmentos del búfer están listos para el sistema operativo, en vez de que Windows tenga que “adivinarlo” a partir de una posición estimada.
Optimizar las transferencias de datos entre el búfer WaveRT y el hardware o DSP subyacente, lo que puede reducir el overhead si el diseño del dispositivo lo permite.
Enviar datos capturados “en ráfagas” más rápido que en tiempo real en ciertos escenarios (p.ej., activación por voz), sin tener que esperar estrictamente a que el tiempo avance.
Proporcionar marcas de tiempo de alta precisión basadas en el contador de rendimiento de Windows para saber exactamente cuándo se ha reproducido o capturado un bloque de muestras.

En dispositivos con DSPs complejos, calcular estas marcas de tiempo adecuadamente requiere correlacionar el reloj interno del DSP con el contador de rendimiento del sistema, y tener en cuenta los retrasos fijos introducidos por algoritmos de procesado o por la propia tubería de hardware.

Si el controlador implementa bien estas DDIs y marca correctamente sus recursos de streaming (interrupciones, hilos propios) ante Portcls, Windows puede proteger mejor esos recursos en escenarios de baja latencia, aislándolos de la actividad del resto de subsistemas cuando hace falta.

Cómo medir la latencia real de tu equipo con Windows 11

Para saber si los cambios que haces están funcionando, es fundamental medir la latencia de ida y vuelta con una herramienta fiable. El método más extendido consiste en usar una aplicación que:

Reproduce un pulso corto (click) por los altavoces o auriculares.
Captura ese mismo pulso con el micrófono.
Calcula el tiempo exacto entre la emisión y la recepción.

Ese tiempo es la latencia round-trip efectiva de tu configuración actual, incluyendo todos los factores: tamaño de búfer, efectos, driver, hardware de entrada y salida. Repetir la medición usando distintos tamaños de búfer, cambiando de controlador (por ejemplo, del fabricante al HDAudio genérico de Microsoft) o probando distintas APIs (ASIO, WASAPI, etc.) te permite comparar configuraciones de forma objetiva.

El propio controlador HDAudio de bandeja de entrada en Windows es un buen punto de referencia, porque admite un rango de tamaños de búfer entre 128 y 480 muestras a 48 kHz. Si tu driver de fabricante da problemas o parece no estar bien optimizado, puedes forzar temporalmente el uso del dispositivo de audio de alta definición de Microsoft desde el Administrador de dispositivos y repetir las pruebas.

Qué puedes hacer en Windows 11 para reducir la latencia desde el software

Si eres usuario final y no desarrollador, lo que más te interesa es qué ajustes concretos puedes tocar para bajar la latencia en tu portátil con Windows 11. Teniendo en cuenta todo lo anterior, estas son las líneas principales de acción:

1. Probar con y sin mejoras de audio

Muchos portátiles traen de serie “mejoras” de sonido (ecualizadores, virtualización, refuerzo de graves, etc.) integradas en el controlador o en el panel de audio del fabricante (como la consola de Realtek). Estas mejoras, tanto de entrada como de salida, añaden pasos extra de procesamiento que pueden sumar latencia.

2. Revisar y actualizar los controladores de audio

El siguiente paso lógico es asegurarte de que no estás limitado por un driver antiguo o defectuoso. En Windows 11 puedes:

Ir a Configuración > Sistema > Sonido, entrar en las propiedades de tu dispositivo de salida, y usar la opción de buscar actualizaciones de controladores (te llevará a Windows Update).
Abrir el Administrador de dispositivos, desplegar “Controladoras de sonido y vídeo y dispositivos de juego”, hacer clic derecho en tu dispositivo de audio y elegir “Actualizar controlador” para que Windows intente encontrar uno más reciente.

Si el controlador del fabricante no se lleva bien con la última versión de Windows 11, podrías notar latencias anómalas o incluso sonido entrecortado en Windows 11. En ese caso, tiene sentido contactar con el soporte del fabricante del portátil para que publiquen un driver actualizado compatible con el nuevo modelo de Windows, o bien probar el controlador genérico HDAudio de Microsoft como solución alternativa, aunque pierdas algunas funciones específicas.

3. Probar el controlador HDAudio genérico de Microsoft

Si sospechas que tu driver OEM está provocando demasiada latencia, puedes cambiar temporalmente al controlador de dispositivo de audio de alta definición de Microsoft desde el Administrador de dispositivos:

Abre el Administrador de dispositivos.
En “Controladoras de sonido y vídeo y dispositivos de juego”, haz doble clic en el dispositivo que corresponde a tus altavoces internos.
Ve a la pestaña “Controlador” y pulsa “Actualizar controlador”.
Elige “Buscar controladores en el equipo” > “Elegir en una lista de controladores disponibles en el equipo”.
Selecciona “Dispositivo de High Definition Audio” (o similar de Microsoft) y pulsa Siguiente. Acepta el aviso si aparece.

Tras reiniciar, el sistema usará el driver HDAudio de bandeja de entrada de Microsoft, que está ajustado para soportar tamaños de búfer pequeños en un rango bien definido. Después puedes medir la latencia y, si te convence el resultado, decidir si vuelves al driver OEM o te quedas con el genérico mientras tanto.

4. Configurar bien tu DAW o software de audio

Si haces música, además de lo anterior, importa mucho cómo tengas configurada tu DAW o tu programa de grabación. Algunas recomendaciones prácticas son:

Si dispones de driver ASIO nativo para tu interfaz (por ejemplo, una interfaz USB enfocada a audio profesional), úsalo. Ajusta el tamaño de búfer en el panel de control del driver y busca el punto de equilibrio entre latencia baja y ausencia de chasquidos.
Si no tienes ASIO, prueba con WASAPI en modo exclusivo o compartido, dependiendo de lo que permita la aplicación, e intenta reducir el búfer poco a poco.
Evita usar simultáneamente muchos efectos pesados en tiempo real en la pista que estés monitorizando, o aumenta un poco el búfer mientras grabas y bájalo solo para tocar en directo.

Ten en cuenta que no todo el retardo lo introduce Windows. La propia DAW, los plugins, los drivers MIDI y el instrumento virtual pueden añadir su propio tiempo de procesamiento interno, que se sumará a la latencia de audio del sistema.

5. Ajustes del sistema y energía

Otro factor que a veces se pasa por alto es el perfil de energía del equipo. En modo de ahorro agresivo, el procesador puede entrar en estados de reposo profundo con mucha frecuencia, lo que provoca mayor jitter en Windows 11 y riesgo de saltos de audio cuando se trabaja con búferes ajustados.

Si tu portátil está siempre en batería y en modo ahorro, prueba a cambiar a un plan de energía equilibrado o de alto rendimiento cuando vayas a trabajar con audio en tiempo real. No es la panacea, pero ayuda a estabilizar la ejecución de los hilos de audio, especialmente si estás pidiendo tamaños de búfer muy pequeños.

¿Siempre compensa ir a la latencia más baja posible?

Puede sonar tentador apuntar siempre al mínimo número de milisegundos, pero no todas las aplicaciones ni todos los equipos se benefician por igual de latencias extremas. Hay dos motivos principales:

Consumo de energía: con un búfer de 10 ms, la CPU se “despierta” cada 10 ms para procesar audio y vuelve a descansar. Con uno de 1 ms, se despierta diez veces más a menudo, lo que aumenta el consumo y reduce la autonomía en portátiles.
Dependencia de efectos y procesamiento: aplicaciones como reproductores multimedia, plataformas de streaming o comunicación suelen priorizar la calidad de audio (filtros, reducción de ruido, cancelación de eco) frente a la latencia absoluta.

Por eso Microsoft deja en manos de cada aplicación decidir si quiere usar las APIs de baja latencia y los búferes pequeños. Si una app no necesita respuesta inmediata, tiene más sentido que se quede con el modelo clásico de 10 ms y aproveche toda la flexibilidad del motor de audio.

Además, aunque un controlador anuncie tamaños de búfer pequeños, no todas las aplicaciones cambiarán automáticamente a esos valores. Deben pedirlo explícitamente a través de AudioGraph o IAudioClient3. Eso sí, cuando una app en un endpoint concreto solicita y obtiene un búfer reducido en modo compartido, el motor de audio ajusta la periodicidad para todos los streams que compartan ese dispositivo y modo de procesamiento. Cuando esa app se cierra, se vuelve al valor estándar.

En conjunto, Windows 11 ofrece una arquitectura de audio mucho más flexible de lo que aparenta a primera vista. Combinando controladores actualizados, tamaños de búfer bien elegidos, APIs modernas como AudioGraph o WASAPI avanzado y algunos ajustes prácticos en el sistema, es posible rebajar un retardo de audio molesto a niveles perfectamente utilizables para tocar, grabar o jugar con fluidez, sin renunciar a la comodidad del modo compartido y manteniendo un buen compromiso entre consumo, calidad y estabilidad.

Jitter en Windows 11: causas, problemas reales y cómo mitigarlo