MAI-Thinking-1 y la familia MAI de Microsoft explicada

W11 » Noticias sobre Windows 11 » MAI-Thinking-1 y la nueva generación de modelos MAI de Microsoft

MAI-Thinking-1 es el primer modelo de razonamiento propio de Microsoft, con 35B de parámetros y contexto de 128K, entrenado con datos comerciales limpios.
La familia MAI incluye modelos para voz, texto, código, transcripción e imágenes, integrados en Copilot, GitHub y servicios de Microsoft Foundry.
Modelos como MAI-Image-2.5 y MAI-Voice-2 priorizan seguridad, calidad comercial y soporte multilingüe, apuntando claramente al uso empresarial.
Microsoft busca autonomía frente a OpenAI, controlando todo el ciclo de sus modelos MAI y expandiéndolos a través de socios como Fireworks AI, Baseten y OpenRouter.

La apuesta de Microsoft por la inteligencia artificial ha pegado un acelerón serio con la llegada de su familia de modelos MAI, y en particular con MAI-Thinking-1, su primer modelo de razonamiento de alto nivel. Este movimiento no es un experimento aislado: encaja en una estrategia más amplia para reducir la dependencia de OpenAI, reforzar su propia infraestructura de IA y ofrecer soluciones adaptadas tanto al gran público como al entorno empresarial.

Dentro de este ecosistema, encontramos modelos especializados en razonamiento, código, generación de voz, transcripción y creación de imágenes. Todos ellos se integran poco a poco en Copilot, GitHub, PowerPoint, OneDrive y otros servicios de Microsoft, a la vez que se abren camino en plataformas de terceros a través de Microsoft Foundry y socios como Fireworks AI, Baseten u OpenRouter. El resultado es un catálogo propio de IA que cubre casi todas las necesidades: pensar, escribir, programar, hablar, escuchar y crear imágenes.

Qué es MAI-Thinking-1 y por qué es tan importante

MAI-Thinking-1 es el primer modelo de razonamiento avanzado desarrollado internamente por el equipo Microsoft AI Superintelligence. No es un simple modelo de chat: está diseñado para manejar tareas complejas que requieren varios pasos, mantener el hilo en contextos largos y combinar texto y código con bastante solvencia.

Se trata de un modelo de tamaño medio con 35.000 millones de parámetros activos y una ventana de contexto de 128K tokens, lo que le permite trabajar con documentos extensos, hilos de conversación largos o bases de conocimiento amplias sin perder consistencia. Esa capacidad de contexto prolongado es clave para casos de uso como análisis de contratos, proyectos técnicos complejos o documentación de software.

Un aspecto relevante es que MAI-Thinking-1 se ha entrenado desde cero, sin recurrir a destilación de otros modelos, usando datos limpios, con licencias comerciales y orientados al uso corporativo. Esta decisión tiene dos implicaciones claras: mayor control sobre el comportamiento del modelo y menos riesgos legales relacionados con derechos de autor y procedencia de los datos.

Microsoft ha destacado especialmente su rendimiento en instrucciones de varios pasos, razonamiento sobre contextos amplios y generación de código. Aunque la compañía no ha publicado baterías completas de benchmarks, sí ha adelantado algunos resultados que apuntan a un nivel competitivo frente a otros modelos punteros del mercado.

En pruebas a ciegas con evaluadores independientes, Microsoft afirma que MAI-Thinking-1 fue preferido frente a Claude Sonnet 4.6 de Anthropic en tareas de razonamiento general, y que iguala a Claude Opus 4.6 en tareas de programación en el benchmark SWE-bench Pro. Son referencias importantes porque sitúan al modelo en la liga de los grandes actores del sector.

Por ahora, MAI-Thinking-1 se encuentra disponible en vista previa privada a través de Microsoft Foundry, la plataforma con la que Microsoft permite a empresas y desarrolladores probar y desplegar modelos de IA de forma controlada. Desde ahí se espera que se vaya integrando en productos y servicios de la compañía, muy probablemente comenzando por escenarios de Copilot corporativo y soluciones de productividad avanzadas.

Expansión de la familia MAI: voz, texto, código, transcripción e imagen

MAI-Thinking-1 no llega solo: forma parte de un porfolio que Microsoft ha ido ampliando a toda velocidad. La compañía ha presentado en los últimos meses modelos para síntesis de voz, lenguaje general, código, transcripción y generación de imágenes, con variantes optimizadas para rapidez o calidad según el caso de uso.

En el terreno de la voz, el primer gran anuncio fue MAI-Voice-1, un modelo de generación de voz centrado en la eficiencia y la personalización. A nivel textual, el camino arrancó con MAI-1-preview, el primer modelo fundacional de lenguaje completamente propio de Microsoft. En visión, la familia se ha consolidado con MAI-Image-1, MAI-Image-2 y MAI-Image-2.5, modelos de texto a imagen con un enfoque empresarial muy claro.

A ello se suman capacidades de transcripción de audio con MAI-Transcribe-1 y MAI-Transcribe-1.5, pensadas tanto para consumo masivo como para aplicaciones profesionales, y un modelo específico de código, MAI-Code-1, optimizado para GitHub Copilot y Visual Studio Code. En conjunto, Microsoft va completando una gama que le permite cubrir la mayoría de necesidades de IA sin depender exclusivamente de terceros.

Más allá del ecosistema propio, la compañía ha anunciado acuerdos para que sus modelos MAI estén disponibles a través de Fireworks AI, Baseten y OpenRouter. Esto facilita la adopción en entornos donde ya se usan estas plataformas y refuerza la presencia de los modelos de Microsoft en el ecosistema de desarrolladores que buscan alternativas a los grandes proveedores clásicos.

MAI-Voice-1 y MAI-Voice-2: voz generativa ultrarrápida y multilingüe

MAI-Voice-1 supuso la primera gran demostración de que Microsoft iba en serio con la generación de voz. Se trata de un modelo capaz de producir un minuto de audio en menos de un segundo usando solo una GPU, una cifra muy por encima de lo habitual y que lo coloca entre los sistemas de voz más eficientes del mercado.

Este modelo está integrado en productos como Copilot Daily y Podcasts, y los usuarios pueden experimentar con él y personalizar timbre, estilo y ritmo de la voz a través de Copilot Labs. La idea es ofrecer audio de alta fidelidad, con un tono expresivo y adaptable, tanto para un único locutor como para varios, abarcando usos como narraciones, guiones, contenidos de formación o meditaciones guiadas.

El enfoque de Microsoft con MAI-Voice-1 no se limita al rendimiento: también busca que la voz generada resulte natural, flexible y segura para usos comerciales. Esto implica controles de contenido, limitaciones para evitar suplantaciones no autorizadas y soporte para distintas lenguas pensado en escenarios globales.

Tras el despliegue general de MAI-Voice-1, Microsoft ha presentado MAI-Voice-2 y una variante flash. Estas nuevas versiones amplían el número de idiomas soportados, añadiendo más de quince lenguas adicionales, e incorporan nuevas opciones de voz y matices expresivos. El modelo flash prioriza la baja latencia, ideal para asistentes de voz interactivos o aplicaciones donde la respuesta debe ser casi inmediata.

Para despachos profesionales, asesores o estudios de contenidos, la familia MAI-Voice habilita asistentes conversacionales de voz, podcasts automatizados o explicaciones de documentación compleja con un coste y una velocidad que hace unos años eran difíciles de imaginar, siempre que se acompañe de buenas prácticas en privacidad y cumplimiento normativo.

MAI-1-preview: el modelo textual fundacional de Microsoft

MAI-1-preview fue el primer gran paso de Microsoft en modelos fundacionales de lenguaje completamente propios. Se trata de un modelo de propósito general pensado para responder a instrucciones cotidianas, redactar textos, resumir información y asistir en tareas del día a día, más que para centrarse desde el principio en escenarios puramente corporativos.

Este modelo se entrenó con un despliegue masivo de hardware: aproximadamente 15.000 GPU Nvidia H100, empleando una arquitectura de tipo mixture of experts (MoE). Esta aproximación reparte la carga entre expertos especializados dentro del modelo, activando solo los necesarios en cada consulta, lo que permite equilibrar capacidad y eficiencia.

MAI-1-preview está disponible en fase de pruebas públicas a través de la plataforma LMArena, donde los usuarios pueden comparar su comportamiento con otros modelos y enviar feedback. Paralelamente, Microsoft ha ido integrando sus capacidades de forma gradual en funciones de texto dentro de Copilot, particularmente en contextos donde necesita un mayor control sobre la experiencia que con modelos externos.

La prioridad de diseño de MAI-1-preview es la experiencia del usuario final: respuestas útiles, con buen seguimiento de instrucciones y adaptadas a tareas cotidianas, por delante de una orientación exclusivamente empresarial. Esto no significa que no pueda utilizarse en empresas, sino que su punto fuerte está en asistentes generalistas y aplicaciones de productividad diaria.

Según ha explicado Mustafa Suleyman, responsable de la división de IA de Microsoft, la intención es combinar el rendimiento técnico con datos de uso reales (telemetría, patrones de interacción, comportamiento publicitario) para afinar el modelo a las necesidades concretas de los usuarios. Todo ello, por supuesto, condicionado a que se respeten las políticas de privacidad y el consentimiento aplicable en cada región.

Autonomía frente a OpenAI y cambio estratégico de Microsoft

Durante años, Microsoft ha apoyado buena parte de sus experiencias de IA generativa en modelos desarrollados por OpenAI, integrados a través de Azure OpenAI y visibles en productos como Bing, Copilot o GitHub Copilot. Con la familia MAI, la compañía da un giro claro: quiere una infraestructura de modelos propia, robusta y diversificada.

Esta estrategia responde a varias motivaciones. Por un lado, reducir la dependencia tecnológica de un único proveedor, algo especialmente sensible en un ámbito tan crítico como la IA. Por otro, tener más margen para adaptar la IA a casos de uso concretos, tanto de consumo como empresariales, sin las restricciones derivadas de acuerdos de licencia o calendarios ajenos.

Además, el desarrollo interno de modelos como MAI-Thinking-1, MAI-1-preview o MAI-Image-1 permite a Microsoft controlar el ciclo completo: datos de entrenamiento, arquitectura, alineamiento, despliegue y monitorización. Esto facilita responder a requerimientos regulatorios, ofrecer garantías adicionales a clientes corporativos y ajustar el modelo según la retroalimentación directa de los usuarios.

Para sectores regulados —como despachos legales, asesorías, sanidad o banca— esta autonomía tiene una lectura interesante: se abre la puerta a soluciones de IA más alineadas con requisitos de cumplimiento, trazabilidad y auditoría. No obstante, el reto sigue siendo importante: cualquier modelo personalizado o automatizado exige pilotos controlados, auditorías internas serias y formación adecuada para el personal.

En este contexto, Microsoft no abandona sus alianzas con OpenAI u otros socios, pero las complementa con una base de modelos propios que puede evolucionar según sus prioridades. Esa combinación de alianzas y autonomía es probablemente la clave de su estrategia a medio plazo.

MAI-Image-1, 2 y 2.5: la entrada de Microsoft en la generación de imágenes

En el terreno visual, Microsoft se ha sumado de lleno a la carrera por la generación de imágenes por IA con la familia MAI-Image. El punto de partida fue MAI-Image-1, un modelo de texto a imagen desarrollado bajo el paraguas de Microsoft AI, que marcó un cambio de enfoque respecto a la dependencia exclusiva de modelos como DALL-E de OpenAI.

MAI-Image-1 es un modelo propietario de generación de imágenes a partir de texto creado por Microsoft Research y el equipo de Microsoft AI. Aunque la compañía no ha detallado todos los aspectos de su arquitectura, se entiende que se trata de un modelo basado en difusión entrenado con un gran conjunto de datos, seleccionados con especial atención a la seguridad comercial y al cumplimiento de políticas de contenido.

La prioridad declarada del modelo es el uso empresarial. Esto se traduce en un fuerte énfasis en generar contenido que respete derechos de autor, incorpore filtros robustos frente a usos indebidos y encaje con las necesidades de flujos de trabajo corporativos. Para las organizaciones que ya utilizan el ecosistema Microsoft, este enfoque permite introducir generación de imágenes en sus procesos sin salirse de las políticas internas.

MAI-Image-1 está diseñado para integrarse con productos como Microsoft Designer, Bing Image Creator, Copilot y Azure AI. Esta integración en el ecosistema es una de sus grandes ventajas: los usuarios no tienen que saltar entre plataformas, sino que pueden generar imágenes directamente desde las herramientas que ya utilizan a diario.

Microsoft también ha invertido mucho en alineamiento y seguridad dentro de MAI-Image-1. El modelo incluye salvaguardas para minimizar la generación de contenido dañino, restringir la creación de medios sintéticos hiperrealistas de personas reales sin los consentimientos oportunos y aplicar capas de moderación que encajan con los principios de IA responsable publicados por la compañía.

Con el tiempo, la familia ha crecido con MAI-Image-2 y MAI-Image-2.5. Esta última versión, presentada recientemente, presume de mejorar la calidad del texto incrustado en las imágenes, ofrecer ilustraciones más estilizadas y lograr una calidad visual apta para usos comerciales respecto a MAI-Image-2.

Microsoft ha lanzado también una variante flash de MAI-Image-2.5, orientada a generar imágenes más rápidamente, algo especialmente útil para interfaces interactivas o asistentes donde se requieren resultados casi inmediatos. Según datos de la propia compañía, MAI-Image-2.5 supera al modelo Nano Banana Pro de Google en el ranking de texto a imagen de Arena, lo que indica un nivel de competitividad notable.

A nivel de producto, MAI-Image-2.5 ya está disponible para desarrolladores a través de Microsoft Foundry, se ha integrado en PowerPoint y se está desplegando gradualmente en OneDrive. Esto permite escenarios como generación automática de diapositivas ilustradas, creación de portadas internas o recursos visuales para documentos de forma prácticamente instantánea.

Comparativa de MAI-Image con DALL-E, Flux y Stable Diffusion

En un mercado donde DALL-E, Flux y Stable Diffusion han marcado el paso, la propuesta de Microsoft con MAI-Image se sitúa en un segmento algo distinto. Frente a DALL-E 3, que Microsoft licencia a través de Azure OpenAI y que ha potenciado Bing Image Creator y Copilot, MAI-Image-1 y sus sucesores representan un esfuerzo por lograr independencia de modelos de terceros en la generación de imágenes.

Las primeras comparaciones sugieren que MAI-Image-1 prioriza la viabilidad comercial, la seguridad y el cumplimiento por encima del rango creativo más extremo que algunos usuarios asocian con DALL-E 3. Dependiendo del caso de uso, esta elección puede ser una ventaja (en entornos corporativos y de marca) o una limitación (para creadores que buscan experimentación sin restricciones).

Frente a la familia Flux de Black Forest Labs, que se ha consolidado como referencia en calidad de imagen en el ámbito de modelos de peso abierto, MAI-Image no compite en el mismo terreno. Flux está muy orientado a comunidades creativas y entornos de investigación, mientras que los modelos cerrados de Microsoft apuntan a empresas que valoran más el cumplimiento y la integración que la máxima flexibilidad artística.

En cuanto a Stable Diffusion, su naturaleza de código abierto y el enorme ecosistema de modelos ajustados sobre su base lo hacen casi imbatible en términos de personalización técnica. MAI-Image, por el contrario, no pretende competir en apertura de modelo, sino ofrecer una alternativa donde lo importante es la confianza para uso comercial, el soporte corporativo y la integración profunda con las herramientas de Microsoft.

Para creadores individuales, la aparición de MAI-Image es sobre todo una señal de hacia dónde se mueve la industria: un escenario con múltiples grandes tecnológicas ofreciendo sus propios modelos de generación de imágenes, junto a modelos abiertos y propuestas de investigación. Plataformas como starryai, que ya combinan distintos modelos (Flux, SDXL, etc.), pueden aprovechar esta diversificación para seleccionar el modelo más adecuado para cada tipo de creación.

En ese contexto, la clave para muchos usuarios creativos no será tanto casarse con un modelo concreto, sino utilizar plataformas que gestionen la complejidad técnica y ofrezcan calidad de salida consistente, permitiendo centrarse en el proceso creativo en lugar de en los detalles de cada arquitectura.

MAI-Transcribe-1 y 1.5: transcripción de audio multilingüe

Dentro de la familia MAI también encontramos modelos específicos para convertir voz en texto. En abril, Microsoft anunció MAI-Transcribe-1, un modelo de transcripción con soporte para las 25 lenguas más utilizadas según sus datos de producto. El objetivo era ofrecer una solución robusta de reconocimiento de voz integrada en su ecosistema.

Poco después, la compañía presentó MAI-Transcribe-1.5, una versión mejorada que amplía el número de idiomas soportados hasta 43 lenguas y alcanza niveles de precisión de vanguardia en muchos de esos idiomas. Este salto lo convierte en una herramienta especialmente potente para organizaciones con presencia internacional o con usuarios multilingües.

Además del soporte para más lenguas, Microsoft ha anunciado que MAI-Transcribe-1.5 contará con transcripción en streaming en un futuro cercano. Esto significa que será posible recibir el texto casi en tiempo real y no solo como resultado de procesar el audio completo, abriendo la puerta a subtitulado en directo, toma de actas automatizada en reuniones o asistentes que combinan comprensión de voz y generación de respuestas.

Desde la perspectiva de despachos profesionales, consultoras o departamentos legales, estos modelos permiten automatizar la transcripción de reuniones, entrevistas, llamadas con clientes o vistas orales. No obstante, el uso en estos entornos exige una atención especial a la protección de datos, la confidencialidad y las regulaciones sectoriales.

La combinación de MAI-Transcribe con MAI-Voice y modelos de razonamiento como MAI-Thinking-1 apunta a flujos de trabajo completos: escuchar, entender, razonar y contestar. La clave estará en cómo se orquestan estos componentes dentro de aplicaciones concretas y qué salvaguardas se establecen.

MAI-Code-1: el modelo de código optimizado para GitHub

Hasta hace poco, GitHub Copilot se apoyaba casi exclusivamente en modelos de OpenAI y, más recientemente, también en modelos de Anthropic. Con el anuncio de MAI-Code-1, Microsoft introduce un modelo de código propio, optimizado específicamente para trabajos y patrones de uso de GitHub.

MAI-Code-1 está pensado para ser eficiente en inferencia, es decir, ofrecer buenas sugerencias de código con un coste computacional ajustado, algo fundamental cuando se atienden millones de peticiones de autocompletado al día. El modelo se ha ajustado para funcionar de forma fluida tanto en GitHub Copilot como en Visual Studio Code, los dos grandes entornos donde los desarrolladores interactúan con Copilot.

Aunque Microsoft no ha publicado cifras detalladas de benchmarks para MAI-Code-1, el mero hecho de introducir un modelo propio en este ámbito es significativo. Señala la voluntad de la compañía de controlar más estrechamente la experiencia de programación asistida por IA, desde la seguridad de las sugerencias hasta la adaptación a diferentes lenguajes, marcos y estilos de código.

El uso de MAI-Code-1 no supone dejar de lado otros modelos en Copilot, pero sí abre la puerta a combinaciones híbridas en las que Microsoft pueda elegir dinámicamente qué modelo utilizar según la tarea, el contexto o las preferencias del cliente, optimizando tanto precisión como costes.

Para las empresas que desarrollan software, esto puede traducirse en sugerencias más alineadas con prácticas internas, mayor control de datos y opciones de despliegue ajustadas a sus políticas, siempre que Microsoft permita grados suficientes de personalización y configuración.

En conjunto, la familia MAI sitúa a Microsoft en una posición en la que puede ofrecer modelos de razonamiento, voz, texto, código, imagen y transcripción siguiendo un enfoque coherente: datos comerciales limpios, énfasis en seguridad y cumplimiento, integración profunda con su ecosistema y voluntad de reducir la dependencia de terceros. Para usuarios finales, empresas y profesionales, esto se traduce en más opciones y en una competencia creciente que, si se gestiona bien, debería redundar en mejores herramientas, más accesibles y con un nivel de fiabilidad cada vez mayor.

Microsoft Maia 200, el acelerador de IA con el que Azure se libera de NVIDIA