- Maia 200 es el acelerador de IA propio de Microsoft, diseñado en 3 nm y optimizado para inferencia masiva en los centros de datos de Azure.
- Combina 216 GB de HBM3e, 272 MB de SRAM y hasta 10 petaFLOPS FP4, superando en eficiencia por dólar y por vatio a Maia 100 y a rivales como Trainium3 y TPU v7.
- Ya está desplegado en regiones clave de Azure para impulsar servicios como Microsoft 365 Copilot y modelos GPT‑5.2, con un SDK específico para desarrolladores.
- Forma parte de la estrategia de Microsoft para reducir su dependencia de NVIDIA, controlar costes de IA y competir frontalmente con Amazon y Google en hardware propio.
La irrupción de Microsoft Maia 200 marca un punto de inflexión en la guerra de hardware para inteligencia artificial entre los grandes proveedores de nube. No se trata solo de otro chip potente: es la apuesta de Microsoft por controlar de arriba abajo su infraestructura de IA, reducir costes y depender menos de gigantes como NVIDIA, al tiempo que planta cara directamente a los diseños personalizados de Amazon y Google.
Este nuevo acelerador de segunda generación está pensado para una fase muy concreta de la IA: la inferencia a gran escala, es decir, el momento en que los modelos ya entrenados responden a millones de peticiones de usuarios. Ahí es donde Maia 200 promete marcar diferencias, con un equilibrio muy agresivo entre rendimiento bruto, eficiencia energética y coste por operación, que Microsoft cifra en un 30% mejor que con su chip anterior Maia 100.
Qué es Microsoft Maia 200 y por qué es tan relevante
Maia 200 es un acelerador de inteligencia artificial diseñado a medida por Microsoft para Azure, orientado específicamente a ejecutar modelos de IA generativa de gran tamaño. A diferencia de las GPU generalistas, su arquitectura se ha optimizado pensando desde el principio en la nube, la inferencia y los patrones de uso reales de servicios como Copilot o los modelos de OpenAI.
Este chip se fabrica en el nodo TSMC N3P de 3 nanómetros, un proceso de vanguardia que le permite integrar alrededor de 140.000 millones de transistores en un solo encapsulado. Frente al Maia 100, producido en 5 nm, supone un salto importante tanto en densidad como en consumo, lo que abre la puerta a mejorar el rendimiento sin disparar el gasto energético.
Microsoft presenta a Maia 200 como su silicio interno más avanzado hasta la fecha y, de hecho, asegura que es el acelerador de mayor rendimiento diseñado por cualquier hiperescalador, incluyendo a Amazon y Google. El mensaje no es casual: la compañía quiere dejar claro que ya no se limita a ser cliente de otros fabricantes, sino competidora directa en el terreno del hardware de IA.
Desde el punto de vista funcional, el foco está puesto en la fase de uso real de los modelos, no tanto en el entrenamiento inicial. Aunque puede manejar ambos tipos de carga, su punto fuerte es hacer que la inferencia sea más rápida, barata y sostenible, algo clave cuando hablamos de miles de millones de consultas cada día a servicios basados en IA.
En paralelo, el chip forma parte de una estrategia más amplia donde entran también la CPU Cobalt, la plataforma Azure Maia AI y toda la pila de software que las acompaña. El objetivo final es integrar verticalmente silicio, centros de datos y servicios de IA para exprimir al máximo cada euro invertido en infraestructura.

La importancia de la inferencia y el contexto competitivo
En el ciclo de vida de un modelo de inteligencia artificial, la inferencia es la parte que el usuario nota: cuando escribes una pregunta, generas un texto o pides un resumen, lo que está ocurriendo detrás es una inferencia. A diferencia del entrenamiento, que suele ser un proceso muy pesado pero puntual, la inferencia es continua y nunca se detiene mientras haya usuarios activos.
Eso implica que la factura de cómputo para la inferencia se ha convertido en uno de los mayores dolores de cabeza de las empresas de IA. Cada respuesta generada consume recursos, energía y, en última instancia, dinero. Por eso los grandes proveedores de nube se están obsesionando con exprimir hasta el último punto porcentual de rendimiento por dólar y por vatio.
Microsoft, que ya jugaba un papel central financiando a OpenAI y acercando la IA generativa a productos de consumo masivo, necesitaba un as bajo la manga en el terreno del hardware. NVIDIA domina las GPU para centros de datos, sus chips son muy caros y la demanda es tan alta que la disponibilidad es un reto. Depender únicamente de ellos condiciona la velocidad y el coste de expansión de cualquiera.
En este escenario, todas las grandes tecnológicas se han lanzado a diseñar su propio silicio: Google con sus TPU, Amazon con la familia Trainium y, ahora, Microsoft con Maia. La diferencia con otros movimientos anteriores es que en el caso de Maia 200, la compañía se ha atrevido a publicar comparativas directas, mostrando tablas donde su acelerador queda por encima en rendimiento FP4 y FP8 frente a Trainium3 y TPU de séptima generación.
Más allá del golpe de efecto, esto encaja con las declaraciones recientes de Satya Nadella sobre la necesidad de mantener el “permiso social” para ampliar centros de datos. Para lograrlo, Microsoft tiene que demostrar que su infraestructura es cada vez más eficiente, consume menos energía y saca más partido de cada chip instalado en sus racks.
Especificaciones técnicas y arquitectura de memoria
En el terreno puramente técnico, Maia 200 llega con una ficha de especificaciones muy agresiva, pensada para alimentar modelos de lenguaje gigantes sin cuellos de botella. Uno de los pilares de este enfoque es la memoria de alto ancho de banda, cada vez más crítica en cargas de trabajo de IA generativa.
El chip integra 216 GB de memoria HBM3e, repartida en pilas de memoria que rodean al silicio principal. Esta HBM ofrece un ancho de banda de unos 7 TB/s, una cifra esencial para mantener los modelos constantemente abastecidos de datos sin que el procesador tenga que esperar. Aunque NVIDIA ofrece más capacidad en algunos de sus modelos, Microsoft se ha centrado en optimizar la relación entre cantidad, velocidad y consumo.
Además de la HBM, Maia 200 suma 272 MB de SRAM en el propio chip. Esta memoria más rápida y cercana a las unidades de cómputo forma parte de un sistema de memoria jerárquico que Microsoft ha diseñado para distribuir de forma inteligente las cargas de trabajo entre SRAM y HBM. La idea es minimizar la latencia en el acceso a los datos más usados y reducir los contenciosos internos.
En términos de potencia de cálculo, el acelerador puede alcanzar más de 10 petaFLOPS en precisión FP4 y alrededor de 5 petaFLOPS en FP8. También se mencionan cifras de aproximadamente 1,3 petaFLOPS en BF16, lo que sitúa al chip en una posición muy competitiva para modelos donde se prioriza un equilibrio entre precisión y rendimiento.
Todo esto se sostiene con un TDP de 750 W, que, si bien no es precisamente bajo, sí resulta notable cuando se compara con alternativas de mercado que llegan a duplicar ese consumo. Para un hiperescalador que despliega miles de aceleradores, esa diferencia energética se traduce en un impacto enorme en costes operativos y requisitos de refrigeración.
Comparación con NVIDIA, Amazon y Google
Uno de los puntos más llamativos de la presentación de Maia 200 es que Microsoft no se ha cortado a la hora de medirse directamente con sus principales rivales. En sus materiales oficiales se ven tablas comparativas frente a AWS Trainium3, las TPU de séptima generación de Google y la arquitectura Blackwell de NVIDIA.
Respecto a Amazon AWS Trainium3, también fabricado en 3 nm N3P, Maia 200 sale especialmente reforzado en modos de baja precisión. Microsoft habla de unas tres veces más rendimiento en FP4 y el doble en FP8, además de una ventaja clara en BF16. Trainium3 cuenta con 144 GB de HBM3e y un ancho de banda HBM inferior, y aunque Amazon no ha detallado su TDP, todo apunta a que el chip de Microsoft ofrece una combinación más favorable de potencia y eficiencia para inferencia.
Si miramos a Google TPU v7, la comparativa se centra sobre todo en FP8, donde Microsoft asegura que Maia 200 ofrece un rendimiento superior. Google ha ido refinando sus TPU generación tras generación, pero el mensaje de Redmond es que, en términos de silicio propio diseñado para la nube, ha conseguido ponerse en la parte alta de la tabla.
Donde la comparación se vuelve más matizada es frente a NVIDIA Blackwell B300 Ultra. Este acelerador, construido en un nodo 4NP más antiguo, ofrece cifras de 15 petaFLOPS en FP4 y 2,5 petaFLOPS en BF16, además de 288 GB de HBM3e y 8 TB/s de ancho de banda. Sobre el papel, en bruto, la B300 Ultra se sitúa por encima en ciertas métricas, aunque con matices importantes.
El primero de ellos es el consumo: la Blackwell B300 Ultra se mueve en torno a los 1400 W de TDP, casi el doble que Maia 200. Microsoft insiste en que, al menos en FP8, su acelerador consigue casi el doble de eficiencia si se compara rendimiento por vatio. El segundo matiz es el enfoque de uso: el chip de NVIDIA está pensado tanto para entrenamiento como para inferencia, mientras que Maia 200 se ha afinado para esta última.
En dinero contante y sonante, Microsoft afirma que el nuevo acelerador logra un 30% más de rendimiento por dólar respecto a Maia 100 y que, en las cargas de inferencia que más le interesan, puede competir de tú a tú con las propuestas de Amazon, Google y NVIDIA, al menos dentro de su propio ecosistema en Azure.
Eficiencia energética, escalado masivo y diseño para la nube
Más allá de las cifras de FLOPS, donde realmente quiere brillar Maia 200 es en el terreno de la eficiencia energética y la capacidad de escalado dentro de los centros de datos de Azure. Aquí entra en juego no solo el chip, sino todo el sistema que lo rodea, desde la red hasta la refrigeración.
El acelerador incorpora una NIC (tarjeta de red) integrada en la propia matriz, con un ancho de banda bidireccional de 2,8 TB/s para comunicarse con otros chips dentro de un clúster. Esta integración permite montar configuraciones masivas de hasta 6144 aceleradores, con una interconexión optimizada para cargas de trabajo distribuidas de IA.
En la práctica, eso se traduce en diseñar racks como si fueran piezas de LEGO pensadas para la IA: bandejas que alojan cuatro chips Maia 200, conectadas entre sí y con el resto de la infraestructura de Azure a través de una red de alta velocidad. Esta modularidad facilita desplegar y escalar recursos en función de la demanda.
Todo el sistema se ha concebido, según Microsoft, como una solución integrada de extremo a extremo: desde el silicio hasta el software de orquestación y la refrigeración. Al diseñar el chip pensando en las características concretas de sus centros de datos, pueden ajustar mejor factores como el flujo de aire, la densidad por rack o la distribución de potencia.
Esta obsesión por la eficiencia no es solo una cuestión económica; también tiene una dimensión reputacional y regulatoria. La compañía está muy pendiente del impacto de sus centros de datos en comunidades locales y de las críticas al elevado consumo energético de la IA. Ofrecer un acelerador que rinde más con menos vatios ayuda a sostener el discurso de una IA más sostenible y socialmente aceptable.
Casos de uso en Azure: de Copilot a GPT‑5.2
Uno de los aspectos más interesantes de Maia 200 es que no es una promesa a futuro: ya está desplegado en producción en algunos centros de datos de Azure. En concreto, Microsoft ha comenzado a utilizarlo en la región Azure US Central, cerca de Des Moines (Iowa), y sus planes pasan por extenderlo pronto a la región US West 3, en Phoenix, para después seguir ampliando su presencia.
En estos centros de datos, el chip se destina a ejecutar modelos de gran tamaño, incluyendo versiones avanzadas de la familia GPT de OpenAI, como GPT‑5.2, en servicios comerciales. Esto abarca desde Microsoft 365 Copilot, que integra IA en aplicaciones como Word, Excel o Outlook, hasta soluciones empresariales y plataformas de desarrollo en Azure.
El equipo de Superinteligencia de Microsoft también está sacando partido de Maia 200 para tareas más experimentales, como la generación de datos sintéticos y el aprendizaje por refuerzo para futuros modelos internos. Este tipo de trabajo requiere una mezcla de flexibilidad y rendimiento continuo que encaja bien con el enfoque del nuevo acelerador.
Para las empresas usuarias de Azure, la gran ventaja es que pueden acceder a servicios de IA más potentes sin preocuparse del hardware que hay detrás. Microsoft abstrae la complejidad y les ofrece APIs, herramientas y servicios gestionados que se benefician de la infraestructura basada en Maia 200 sin que tengan que cambiar su forma de trabajar.
Eso sí, a diferencia de las GPU de NVIDIA que pueden comprarse y desplegarse en instalaciones propias, Maia 200 es un producto exclusivo de Microsoft para su nube. No se vende como hardware independiente: si quieres usarlo, tienes que hacerlo a través de Azure, lo que refuerza el vínculo entre el chip y el ecosistema de servicios de la compañía.
SDK, ecosistema de desarrollo y acceso anticipado
Para que Maia 200 tenga éxito no basta con un buen diseño de silicio; hace falta una pila de software madura y amigable para desarrolladores. En este sentido, Microsoft ha lanzado una versión preliminar de su SDK específico para el acelerador, con el objetivo de facilitar la optimización de modelos y herramientas.
Este SDK incluye integración con PyTorch, uno de los frameworks de IA más utilizados, así como un compilador basado en Triton y bibliotecas de kernels ajustadas para exprimir el hardware. Además, da acceso a un lenguaje de programación de bajo nivel para Maia, pensado para quienes necesiten exprimir el último punto de rendimiento o desarrollar operaciones personalizadas.
La compañía ha anunciado también un programa de acceso temprano orientado a universidades y proyectos de código abierto. Con esta iniciativa busca crear una comunidad que experimente con el chip, aporte feedback y construya herramientas y optimizaciones alrededor de su arquitectura.
Esta apertura controlada tiene un doble objetivo: por un lado, popularizar Maia 200 entre perfiles técnicos influyentes y, por otro, acelerar la madurez de la pila de software a base de casos de uso reales. En un entorno donde NVIDIA lleva años de ventaja con CUDA y su ecosistema, Microsoft necesita recortar terreno rápidamente.
En paralelo, la integración de Maia 200 en las plataformas de desarrollo de Azure permite que startups y empresas comiencen a migrar o ajustar sus modelos sin tener que reescribirlo todo desde cero, aprovechando las capas de compatibilidad que ofrece el SDK.
Estrategia, tiempos y lo que viene después
El lanzamiento de Maia 200 llega, curiosamente, algo más tarde de lo que apuntaban algunas filtraciones. Bajo el nombre en clave Braga, se esperaba que este chip estuviese listo en torno a 2025 e incluso que se adelantase a la arquitectura Blackwell de NVIDIA, algo que finalmente no ha ocurrido.
Aun así, Microsoft ha logrado reducir notablemente el tiempo desde el diseño hasta la implementación real en centros de datos. La compañía presume de que Maia 200 ha pasado del papel a producción en un plazo muy corto, gracias a ese enfoque vertical que abarca chip, sistemas, red y software.
Ya se está trabajando en las próximas generaciones de la familia Maia, y hay informaciones que señalan que uno de los futuros modelos podría fabricarse utilizando el proceso 18A de Intel Foundry. De confirmarse, supondría diversificar aún más la cadena de suministro y reducir la dependencia exclusiva de TSMC, algo estratégico en un mercado tan tensionado como el de los semiconductores avanzados.
Mientras tanto, Maia 200 sirve como banco de pruebas para demostrar que Microsoft puede competir en la élite del hardware de IA y, al mismo tiempo, contener los costes operativos de sus servicios. Si la apuesta sale bien, verá cómo mejora su margen en productos basados en IA generativa y gana algo de aire frente a la presión constante por ampliar capacidad.
En conjunto, Maia 200 se posiciona como una pieza clave en la batalla por el dominio de la infraestructura de IA: un acelerador centrado en la inferencia, con una arquitectura de memoria muy cuidada, un buen equilibrio entre rendimiento y consumo y un ecosistema de software que, aunque todavía está creciendo, apunta a ser cada vez más relevante para cualquiera que apueste por Azure como plataforma principal.
Todo este movimiento encaja en un escenario donde las grandes nubes ya no se conforman con comprar GPU: quieren diseñar sus propios chips, ajustar cada capa de la pila tecnológica y exprimir al máximo cada rack de sus centros de datos para poder seguir ofreciendo IA generativa a escala planetaria sin que los números se les vayan de las manos.