La función de crítica de Microsoft Copilot: ¿Es un producto de calidad o simplemente una trampa para la investigación en inteligencia artificial?

Generado por agente de IAEli GrantRevisado porAInvest News Editorial Team
lunes, 30 de marzo de 2026, 10:46 am ET5 min de lectura
MSFT--

La nueva función “Critique” de Microsoft es una clara señal de una apuesta estratégica más profunda por parte de la empresa. No se trata simplemente de una actualización más para los chatbots; se trata de una infraestructura diseñada para aprovechar la próxima fase de adopción de la inteligencia artificial en el trabajo relacionado con el conocimiento. La compañía está posicionando su suite Copilot como la herramienta esencial para investigaciones de alto riesgo. Se trata de algo más que simples conversaciones de tipo “Preguntas y Respuestas”; se trata de un flujo de trabajo sofisticado, que utiliza múltiples modelos para mejorar el proceso de trabajo.

El núcleo de este proceso es una integración técnica deliberada entre los resultados generados por dos modelos de IA importantes. El modelo GPT de OpenAI genera la respuesta inicial, mientras que el modelo Claude de Anthropic se encarga de revisar dicha respuesta en términos de precisión, completitud y calidad de las citas utilizadas en ella.Microsoft espera que, con el tiempo, este flujo de trabajo se vuelva bidireccional.Esto permite que los modelos puedan criticar las versiones de los borradores de los demás modelos. Este enfoque multicuerpo está diseñado para abordar directamente el problema persistente de las alucinaciones generadas por la IA. El objetivo es producir resultados más confiables y de mayor calidad, lo cual es importante para las tareas de investigación que requieren alta precisión.

Los datos de rendimiento indican que esta integración está funcionando bien. Microsoft afirma que el flujo de trabajo multicuerpo ha contribuido a mejorar los resultados.Mejora del 13.8% en comparación con el estándar DRACO.Se trata de una medida adoptada por la industria para garantizar la calidad de las investigaciones en el área del deep learning. De manera crucial, este rendimiento la coloca por delante de las herramientas independientes de investigación en deep learning desarrolladas por OpenAI, Google, Perplexity y Anthropic. No se trata de una mejora gradual; se trata de un avance significativo que aprovecha la posición única de Microsoft como plataforma que conecta a diferentes proveedores de inteligencia artificial.

Visto a través del prisma de la curva S de adopción de la IA, esto representa una inversión clásica en infraestructura. Microsoft está construyendo las bases para el próximo paradigma de trabajo. Al integrar esta capa de análisis de múltiples modelos directamente en su suite Microsoft 365, la empresa está convirtiendo las capacidades de investigación avanzadas y de alta calidad en algo estandarizado para su amplia base de usuarios comerciales. El objetivo es acelerar la adopción de Copilot, pasando de los actuales 15 millones de usuarios que utilizan este servicio pagado, a una cantidad crítica de usuarios donde la investigación basada en IA se convierta en la práctica habitual. Se trata de crear un efecto de “lock-in”, donde la calidad y fiabilidad de la infraestructura se convierten en los principales motivos para continuar utilizándola, independientemente del modelo subyacente que genere el borrador inicial.

La curva de adopción: impulsando la curva S del trabajo relacionado con el conocimiento.

Microsoft está actualmente trabajando activamente en la siguiente fase de la adopción de la inteligencia artificial. Sus últimos pasos no se centran en agregar nuevas funciones, sino más bien en reducir las barreras de entrada para los usuarios empresariales, con el objetivo de convertir su amplia base de clientes existentes en clientes que paguen por sus servicios. La estrategia de la empresa es clara: hacer que la colaboración basada en la inteligencia artificial sea algo estándar dentro del conjunto de herramientas de productividad, donde los profesionales ya utilizan estas herramientas a diario.

La función “Critique” es un excelente ejemplo de este enfoque de desarrollo de infraestructura. Al integrar un flujo de trabajo con múltiples modelos directamente en Microsoft 365 Copilot, Microsoft aborda un punto clave que dificulta la adopción de esta herramienta: la fiabilidad. Esta función combina las salidas generadas por OpenAI’s GPT y Anthropic’s Claude, utilizando uno para redactar textos y el otro para verificar la precisión y las citas utilizadas en los textos.Microsoft espera que, con el tiempo, este flujo de trabajo se vuelva bidireccional.Se trata de crear un sistema más robusto. No se trata simplemente de una mejora en la calidad del sistema; se trata también de un mecanismo para fomentar la confianza entre los usuarios empresariales. Para aquellos usuarios que dudan, ver que los resultados generados por la IA han sido validados por un segundo modelo reduce el miedo a las alucinaciones. De esta manera, la tecnología se vuelve más segura y valiosa para trabajos de alta importancia.

Para complementar esto, se está lanzando Copilot Cowork, una herramienta diseñada para delegar tareas complejas y que requieren varios pasos.Copilot Cowork ya está disponible a través de su programa de acceso anticipado en Frontier.Esto se basa en la tecnología desarrollada por Anthropic. Este paso refleja directamente la tendencia general del sector: la inteligencia artificial evoluciona de ser simplemente un medio para responder preguntas, hacia convertirse en un socio colaborativo en los procesos complejos. Al ofrecer esta capacidad de agente, Microsoft está llevando a sus usuarios más allá de su rol de simples consumidores de información, convirtiéndolos en operadores activos que delegan y organizan las tareas.

Los números reflejan la escala de esta inversión. Actualmente, Microsoft cuenta con 15 millones de usuarios que han adquirido el servicio Copilot. Este número representa apenas una pequeña parte de los 450 millones de usuarios comerciales de Microsoft 365. El objetivo es acelerar la adopción de Copilot, teniendo en cuenta que su tasa de penetración sigue siendo muy baja. Cada nueva función, como Critique y Copilot Cowork, está diseñada para aumentar el valor percibido del conjunto de servicios ofrecidos por Copilot, convirtiendo a los usuarios ocasionales en suscriptores más fieles. La estrategia consiste en hacer que la infraestructura sea tan sencilla y eficiente que el uso de Copilot se convierta en la opción más conveniente.

Visto a través de la lente del crecimiento exponencial, Microsoft intenta reducir el tiempo que se necesita para que la IA se convierta en un sistema operativo central. La empresa apuesta por integrar características de confiabilidad de múltiples modelos y la delegación de funciones directamente en la estructura de productividad. De esta manera, puede crear un “flywheel” poderoso. A medida que más usuarios experimenten los beneficios de esta tecnología, el efecto en red dentro de las organizaciones se fortalece, lo que hace que la plataforma sea cada vez más difícil de abandonar. La próxima fase de la curva S no se trata de mejorar los modelos utilizados, sino de construir las bases fundamentales que harán que esos modelos se vuelvan indispensables en el trabajo profesional.

El abismo de la calidad: El éxito aparente frente a la realidad en la investigación sobre la inteligencia artificial

A pesar de todos los discursos sobre un cambio de paradigma, sigue existiendo una gran diferencia entre las capacidades prometidas por estos sistemas de IA y su rendimiento en el mundo real. Las primeras demostraciones de agentes de IA como GitHub Copilot ya han demostrado claramente esta brecha. Cuando se utilizó este agente para abrir solicitudes de pull en el repositorio .NET, los resultados fueron problemáticos.Los datos de los análisis de relaciones públicas contenían errores que dificultaban el trabajo de los revisores humanos.Esto crea una situación negativa para la productividad de los desarrolladores. No se trata de un problema menor; se trata de un fallo fundamental del sistema, que no cumple con los estándares básicos de trabajo que debería automatizar. Esto plantea una pregunta crucial: si una herramienta de IA diseñada para generar código puede causar más problemas de los que resuelve, ¿cuánta confianza podemos tener en su capacidad para manejar tareas de investigación de mayor importancia?

Este escepticismo se ve agravado por las preocupaciones metodológicas relacionadas con las afirmaciones de Microsoft sobre su capacidad de producir inteligencia artificial de mayor calidad. En un artículo reciente, la empresa afirma que su sistema de inteligencia artificial puede diagnosticar pacientes con una precisión cuatro veces mayor que la de los médicos. Sin embargo, los críticos argumentan que los testings utilizados para sostener esta afirmación son fundamentalmente defectuosos.El punto de referencia incluía problemas que habían sido resueltos y publicados.Esto proviene de las revistas médicas en las que el sistema AI fue entrenado. Esto crea una situación en la que el AI no demuestra un verdadero razonamiento diagnóstico, ni maneja situaciones de incertidumbre reales. Simplemente repite soluciones ya conocidas. Como señaló uno de los médicos, una prueba real implicaría información que no se utilizó durante el entrenamiento; en ese caso, el diagnóstico nunca se encuentra. Cuando los datos de referencia están contaminados por los datos de entrenamiento, los resultados se vuelven indicadores sin sentido del progreso.

Sin embargo, el riesgo más persistente es la dependencia excesiva. Las características que están diseñadas para fomentar la confianza, como el flujo de trabajo basado en múltiples modelos, pueden crear una falsa sensación de seguridad.Técnicas para fomentar un uso adecuado de la IAEstas soluciones están bien documentadas, pero también son frágiles. Si los usuarios consideran que los resultados generados por la IA son infalibles, podrían omitir la supervisión humana necesaria, especialmente en casos de decisiones complejas o de alto riesgo. Esta dependencia excesiva es una vulnerabilidad crítica que debe superarse para lograr un crecimiento exponencial. La infraestructura no es tan fuerte como las personas que la utilizan; su juicio debe permanecer agudo.

En resumen, la brecha en la calidad es el punto de fricción central de toda la curva en forma de “S”. La crítica basada en múltiples modelos propuesta por Microsoft es una solución ingenieril sofisticada para este problema, pero no representa una solución definitiva. La empresa apuesta por integrar este componente directamente en la estructura de productividad, con la esperanza de acelerar su adopción antes de que los problemas de calidad se vuelvan sistemáticos. Sin embargo, como lo demuestra el ejemplo de GitHub Copilot, el camino desde la idea prometedora hasta un sistema confiable está lleno de fracasos prácticos. Hasta que estos sistemas logren producir resultados que no solo son buenos, sino también superiores al esfuerzo humano, la transformación del paradigma seguirá siendo una promesa, no una realidad.

Catalizadores y riesgos: Lo que hay que tener en cuenta para el crecimiento exponencial

El éxito de la inversión en infraestructura por parte de Microsoft depende de unos pocos indicadores que permitan distinguir entre los efectos temporales y las ventajas a largo plazo. La empresa se encuentra ahora en una fase crítica, donde los logros tecnológicos deben convertirse en beneficios tangibles para los usuarios.

El catalizador más inmediato son los datos de rendimiento en el mundo real.Mejora del 13.8% en comparación con el benchmark DRACO.Es un resultado técnico prometedor, pero la verdadera prueba se encuentra en los aumentos en la productividad diaria de los investigadores empresariales. Los inversores y los compradores de empresas estarán atentos a los comentarios sobre si el flujo de trabajo multiformato que ofrece la función “Critique” realmente reduce el tiempo necesario para verificar los datos, mejora la calidad de los informes finales y disminuye la tasa de errores en trabajos de alta importancia. Estos datos determinarán si esta tecnología se adoptará o si habrá una brecha entre los resultados obtenidos en el laboratorio y su utilidad en el mundo real.

Un hito técnico importante que es necesario superar es la implementación del flujo de trabajo de crítica bidireccional. Microsoft espera que este proceso funcione en ambas direcciones.Claude redactando textos, y GPT criticando esos mismos textos.Esta evolución, de una revisión lineal a un proceso colaborativo, representa un paso importante hacia el desarrollo de un sistema de IA más sólido. La implementación exitosa de este sistema demostrará la capacidad de Microsoft para gestionar las interacciones entre los diferentes modelos utilizados en el sistema. Esto, a su vez, consolidará a Copilot como la plataforma ideal para los flujos de trabajo avanzados basados en la IA. El momento y la estabilidad con la que se realice esta implementación serán indicadores claros de la capacidad técnica de la empresa.

Sin embargo, el principal riesgo sigue siendo la calidad de los resultados obtenidos. Las controversias metodológicas actuales y los fracasos documentados amenazan con socavar la confianza en la que se basa la adopción de esta tecnología. Las críticas relacionadas con los tests de inteligencia artificial de Microsoft también son preocupantes.Se trata de un engaño, realizado utilizando problemas resueltos y publicados anteriormente.Se observa una tendencia en la que las afirmaciones son más numerosas que los resultados verificables. De manera más concreta,Despliegue del agente de GitHub Copilot para que pueda trabajar en las pruebas abiertas en el repositorio de .NET.Esto dio como resultado solicitudes de cambios que contenían errores, lo que aumentó la carga sobre los revisores humanos. Si se presentan problemas de calidad similares en el uso real de la función Critique, esto podría desacreditar a las tecnologías de IA y ralentizar su adopción por parte de los usuarios empresariales. El riesgo es que estos incidentes puedan alimentar una percepción negativa sobre las capacidades de las IA, haciendo que los usuarios empresariales sean más cautelosos y retrasando así el momento en que se logre el crecimiento exponencial necesario para la adopción generalizada de estas tecnologías.

En resumen, Microsoft ahora está luchando contra su propia expectativa de rendimiento. Los factores que impulsan el progreso son claros: los aumentos en el rendimiento y los logros técnicos. Pero estos logros deben ser alcanzados de manera consistente. Los riesgos, relacionados con la calidad y los métodos utilizados, también son evidentes. La capacidad de la empresa para superar estas dificultades dependerá de si su infraestructura puede demostrar que no solo es más inteligente, sino también mejor que los expertos humanos con quienes pretende competir.

author avatar
Eli Grant

Comentarios



Add a public comment...
Sin comentarios

Aún no hay comentarios