El presupuestamiento basado en tokens está destinado a transformar la infraestructura de IA, ya que los costos locales pueden ser hasta 18 veces más altos que los precios de la nube.
La realidad operativa de la creación de sistemas de inteligencia artificial ha sufrido un cambio fundamental. Ya no se trata de escribir código, sino de gestionar un recurso finito: los “tokens”. Este cambio está claramente ilustrado por Andrej Karpathy, cofundador de OpenAI. En un reciente podcast, admitió que no ha escrito ni una sola línea de código desde diciembre. Ahora, delega esa tarea a otros.El 80% de su trabajo se relaciona con agentes de inteligencia artificial.Es una completa inversión en comparación con su flujo de trabajo anterior. No se trata simplemente de una anécdota personal; es una señal de que se está estableciendo un nuevo patrón de trabajo. El punto débil ya no se encuentra en el tiempo dedicado por los desarrolladores, sino en el presupuesto asignado a los tokens.
Cada llamada a la API, cada operación realizada por el agente, cada paso de razonamiento consume tokens. Como señaló un observador, la economía basada en tokens tiene sus propias “Daytons” y “Nuevos Greenwich”: una gran diferencia entre aquellos que consumen tokens de forma desmedida y aquellos que optimizan su uso para obtener el máximo rendimiento por dólar invertido. Esto crea una nueva capa económica para el crecimiento exponencial de la IA. La industria está pasando de la fase de prototipos experimentales a una fase de inferencias continuas, lo cual ha cambiado fundamentalmente el costo total de operación. Para los trabajos que requieren un alto uso de recursos, este cambio favorece las soluciones locales, donde el costo por millón de tokens puede ser hasta 18 veces menor que cuando se utiliza la tecnología de “Modelo como Servicio”. El paradigma ha cambiado: ya no se trata de alquilar capacidad de procesamiento, sino de poseer la infraestructura necesaria para mantener la economía basada en tokens.

El Marco Económico de las Fichas: Costos, Control y Catalizadores
Los mecanismos financieros relacionados con la IA están entrando en una nueva fase, caracterizada por un paradojo muy interesante. Por un lado, el costo de inferencia por token está disminuyendo a un ritmo exponencial. Esta tendencia es lo que Andreessen Horowitz denomina “LLMflation”. Para un modelo con un rendimiento equivalente, los costos han disminuido significativamente.1000 veces en tres años.Por otro lado, los costos de facturación de las empresas están aumentando rápidamente. Esto es lo que se denomina el “Paradoxo de Jevons”: si algo se vuelve más barato, la gente lo utiliza con mayor frecuencia. El gasto total en facturación aumentó en un 320%, incluso cuando los costos de los tokens disminuyeron en un 280%. El problema ahora se ha trasladado de la escasez de recursos informáticos a la planificación presupuestaria de los tokens.
Esto crea un vacío en la infraestructura necesaria para el desarrollo de aplicaciones basadas en IA. Las grandes aplicaciones de IA no fracasan porque los modelos son débiles, sino porque los tokens son costosos, limitados en su uso y mal gestionados. Tan pronto como un sistema pasa de ser simplemente un sistema de chat con un único prompt, a sistemas que requieren copilotos o agentes para manejar múltiples tareas, el uso de tokens se vuelve esencial.Una empresa arquitectónica de primera clase.Sin un enfoque estructurado, los equipos se enfrentan a situaciones en las que surgen problemas repentinos, aumentos repentinos en los costos y la pérdida de información importante. La solución se presenta en forma de herramientas de IA que funcionan como sistemas de control financiero. Estas herramientas imponen límites presupuestarios jerárquicos y permiten el seguimiento en tiempo real, evitando así sobrecostos antes de que ocurran.
El catalizador para este desarrollo de la infraestructura es evidente. El lado de la oferta no sigue el ritmo del crecimiento necesario. Mientras que los costos por token disminuyen, el hardware utilizado para la gestión de la infraestructura se vuelve cada vez más costoso. En enero del año pasado, AWS aumentó los precios de las capacidades de GPU en un 15%. Además, NVIDIA está reduciendo su producción de GPU para gama de juegos, priorizando los chips destinados a centros de datos. La escasez de memoria también agrava el problema; se planea que los precios de la memoria HBM3E aumenten en 2026. Al mismo tiempo, los gastos de capital de las hyperscalers están aumentando rápidamente. Las cinco principales empresas están comprometidas a invertir más de 600 mil millones de dólares en infraestructura este año. Esto abre la posibilidad de implementar nuevos programas de software para gestionar el crecimiento exponencial de los presupuestos relacionados con tokens.
Implicaciones en la infraestructura: Construir las bases para una adopción exponencial de estas tecnologías.
El cambio en la economía de los tokens no se trata simplemente de una cuestión de costos. Se trata, en realidad, de un reensamblaje fundamental de la infraestructura de IA. A medida que la industria pasa de la fase de prototipado a la fase de procesamiento continuo, el cálculo del Costo Total de Propiedad (TCO) también cambia. Las pruebas muestran una marcada diferencia en términos de eficiencia: para las cargas de trabajo con alta utilización, poseer la infraestructura resulta más rentable.Un beneficio de 18 veces más en costos por cada millón de tokens.En comparación con la utilización de API de modelo como servicio, esto no representa una economía marginal; se trata de una diferencia de orden de magnitud que hace que las soluciones locales sean económicamente viables. El punto de equilibrio se alcanza en menos de cuatro meses, siempre y cuando se utilicen los casos de uso adecuados.
Esto crea una clara tesis de inversión. La capa de infraestructura se está dividendo en dos partes. Por un lado están los proveedores de computación primaria, cuyos costos de hardware están aumentando. Por otro lado, existe una nueva generación de software de control y plataformas de alta precisión. Las plataformas de inferencia de terceros están ganando popularidad, ya que ofrecen una solución al problema común de la industria: el gasto excesivo en configuraciones de GPU que son genéricas para todos los casos. Como señala un análisis, la mayoría de los equipos…Se gasta más de lo necesario en aspectos relacionados con la inferencia, ya que se suelen utilizar configuraciones de GPU que son universales y no se adaptan a las necesidades específicas de cada caso.En lugar de asignar recursos según las necesidades reales, plataformas como GMI Cloud están diseñadas para eliminar este tipo de desperdicio, al asignar los recursos de GPU de manera precisa, en función del tamaño del modelo, la concurrencia y los objetivos de latencia.
El catalizador para este desarrollo de la infraestructura es el surgimiento de los flujos de trabajo guiados por agentes. Este cambio de paradigma puede ilustrarse mejor mediante el ejemplo de Andrej Karpathy, cofundador de OpenAI. Él describió cómo un agente puede realizar tareas complejas de forma autónoma.Treinta minutos.Hace tres meses, ese era un proyecto que se realizaba durante los fines de semana. Hoy en día, se ha convertido en una rutina habitual. Este cambio de los prompts episódicos a la ejecución continua y multipasos por parte del agente requiere una infraestructura capaz de manejar procesos de inferencia a gran escala y con alta eficiencia. No se trata solo de servir a un único modelo; se trata también de coordinar una serie de modelos, gestionar el contexto entre las diferentes sesiones, y optimizar todo el presupuesto de tokens en tiempo real.
En resumen, los cimientos para una adopción exponencial de este sistema ya están siendo construidos en estos momentos. La economía basada en tokens tiene sus propios “Dayton” y “New Greenwich”; existe una gran diferencia entre aquellos que utilizan las tokens de manera imprudente y aquellos que optimizan su uso para obtener el máximo rendimiento por cada dólar invertido. Las empresas que ganarán serán aquellas que proporcionen los mecanismos de control y la infraestructura necesaria para gestionar esta nueva capa económica. Ellas son quienes construyen los cimientos sobre los cuales se basará el próximo paradigma económico.

Comentarios
Aún no hay comentarios