En cuestión de meses, los chips de IA de Google se han convertido en uno de los productos más codiciados del sector tecnológico. Desarrolladores líderes de inteligencia artificial (IA), incluidos algunos de los mayores rivales de la firma, están acumulándolos. Ahora, la compañía propiedad de Alphabet Inc.
busca aprovechar ese impulso con la probable introducción de nuevos chips dedicados a la inferencia, es decir, a ejecutar modelos de IA una vez que han sido entrenados. Con este impulso, Google se posiciona para desafiar aún más al líder del mercado, Nvidia Corp. , en una categoría de semiconductores de rápido crecimiento impulsada por la creciente adopción de software de IA.
A medida que aumenta la demanda por procesar rápidamente consultas de IA, “ahora tiene sentido especializar más los chips para entrenamiento o para cargas de trabajo de inferencia”, dijo en una entrevista Jeff Dean, científico jefe de Google. “Estamos analizando muchas cosas distintas”, añadió, incluyendo la velocidad de los resultados de IA que busca habilitar. La empresa planea anunciar su nueva generación de chips diseñados a medida, conocidos como unidades de procesamiento tensorial, o TPUs, en la conferencia Google Cloud Next en Las Vegas esta semana.
Amin Vahdat, quien supervisa la infraestructura de IA y el trabajo en chips de Google, declinó comentar sobre planes para un chip de inferencia que pueda acelerar los resultados de IA, pero dijo que probablemente se compartirán más detalles “en un futuro relativamente cercano”. Las unidades de procesamiento gráfico de Nvidia, o GPUs, siguen siendo el estándar de oro para la IA, particularmente para el entrenamiento de modelos más avanzados. Pero un número creciente de nuevos competidores busca desafiar al fabricante en usos de inferencia, incluyendo la oferta de chips diseñados para reducir los tiempos de respuesta de chatbots y agentes de IA.
El mes pasado, Nvidia comenzó a vender un chip destinado a una inferencia más rápida basado en tecnología que adquirió de Groq como parte de un acuerdo de licenciamiento reportado en US$ 20 mil millones. Google aporta fortalezas únicas a ese escenario competitivo, incluyendo una década de experiencia diseñando chips, vastos recursos provenientes de sus ingresos por búsqueda en línea y conocimiento directo de los modelos de IA. Entre los principales desarrolladores de IA, solo Google fabrica sus propios chips a escala significativa, lo que le permite compartir retroalimentación clave entre equipos para personalizar mejor el hardware.
(OpenAI recién está comenzando a diseñar los suyos). En una reciente entrevista en podcast, Jensen Huang, de Nvidia, destacó las ventajas de los chips de su compañía, señalando que pueden ejecutar “una gran variedad de aplicaciones” que “no se pueden hacer con TPUs”. Por su parte, Google utiliza una combinación de TPUs y GPUs en su propio trabajo.
“A mucha gente le gustaría operar con ambos”, dijo Demis Hassabis, director ejecutivo de Google DeepMind, a Bloomberg. El interés por las TPUs es particularmente alto entre los principales laboratorios de IA, agregó. Google ya había destacado previamente las capacidades de inferencia de sus chips.
También consideró lanzar chips separados para entrenamiento e inferencia en etapas tempranas, según Partha Ranganathan, vicepresidente y fellow de ingeniería en Google, pero hasta ahora ha evitado ese enfoque. Eso podría cambiar pronto a medida que el auge del gasto en IA se desplace del entrenamiento hacia la inferencia. “El campo de batalla se está desplazando hacia la inferencia”, dijo Chirag Dekate, analista de Gartner, quien señala que, en su experiencia, el modelo Gemini de Google es el más rápido en responder a tareas complejas de razonamiento.
“En ese campo, Google tiene una ventaja de infraestructura”. Hoy, las TPUs ya son una opción sólida para procesar resultados de la nueva generación de agentes de IA que realizan trabajos más complejos en nombre de los usuarios, según Natalie Serrino, cofundadora de Gimlet Labs, una startup que desarrolla software para asignar tareas de IA al chip más adecuado para cada trabajo. “Son herramientas muy eficaces para la carga de trabajo que está explotando”, dijo.
Los esfuerzos de Google en chips, desarrollados durante años, cobraron nueva relevancia en octubre cuando Anthropic PBC -uno de los desarrolladores de IA más observados- anunció un acuerdo ampliado para acceder a hasta un millón de TPUs. Al mes siguiente, Google presentó el modelo Gemini 3 más avanzado, entrenado y ejecutado sobre TPUs, con muy buenas críticas. Desde entonces, la demanda por los chips de Google ha seguido creciendo entre grandes empresas.
Meta Platforms Inc. firmó un acuerdo multianual por miles de millones de dólares para utilizar TPUs a través de Google Cloud. La compañía acaba de acceder a su primer suministro significativo y está probando para qué tareas son más adecuados, dijo Santosh Janardhan, jefe de infraestructura de Meta.
“Parece que podría haber ventajas en inferencia”, señaló, aunque advirtió que “ninguna plataforma nueva está exenta de obstáculos y una curva de aprendizaje”. Anthropic también firmó un acuerdo con Broadcom Inc. , socio de Google en TPUs, para chips que le permitirán acceder a cerca de 3,5 gigavatios de capacidad de cómputo a partir de 2027.
Citadel Securities planea presentar en la conferencia de Google cómo las TPUs le permiten entrenar modelos más rápido que en trabajos previos con GPUs. Y G42, el conglomerado tecnológico de Abu Dhabi, ha sostenido “múltiples conversaciones” con Google sobre el uso de sus TPUs, según Talal Al Kaissi, CEO interino de Core42, la unidad cloud de la firma. “Soy muy optimista”, dijo Al Kaissi sobre las conversaciones.
Google ya está tomando nuevas medidas para adaptarse a sus clientes. La empresa está probando permitir que compañías como Anthropic ejecuten algunas de sus TPUs en sus propios centros de datos en lugar de en instalaciones de Google, según una persona familiarizada con el asunto. También ha permitido a los clientes de TPUs utilizar herramientas externas como PyTorch, así como otros software de programación, en lugar de depender exclusivamente de los productos de Google, dijo Vahdat.
Estos cambios están ayudando a modificar la percepción de unos chips que surgieron de los cuellos de botella de cómputo de Google y que durante mucho tiempo se consideraron principalmente útiles para satisfacer sus propias necesidades. Después de que Dean, científico jefe de Google, comenzara a desarrollar un sistema de software de IA para permitir a las personas usar servicios de traducción de idiomas y reconocimiento de voz, se dio cuenta de que ni siquiera Google podía permitirse ofrecerlo con los chips y hardware disponibles. Al mismo tiempo, las unidades centrales de procesamiento en las que Google confiaba para la IA estaban mejorando a un ritmo más lento.
La empresa decidió que debía construir un acelerador enfocado en un conjunto más acotado de tareas que probablemente generarían los mayores costos en IA. La idea clave detrás de la TPU es que “resuelve un pequeño número de problemas, pero la cantidad de cómputo requerida para ellos es enorme”, dijo Vahdat, exprofesor de ciencias de la computación que desempeñó un rol clave en impulsar a Google a adoptar switches ópticos que ayudan a conectar TPUs en supercomputadores. “La sabiduría convencional en ese momento era que no se construía hardware especializado”.
A lo largo de los años, las TPUs de Google han evolucionado junto con su trabajo en IA. Un influyente paper de investigación de Google de 2017 que dio origen a los actuales modelos de lenguaje también impulsó al equipo de TPUs a enfocarse en chips para entrenar sistemas de IA más grandes. Más tarde, Google DeepMind y el equipo de chips notaron que las TPUs quedaban inactivas con demasiada frecuencia cuando se desplegaban para aprendizaje por refuerzo, un método popular para mejorar sistemas de IA en tareas específicas.
El equipo de TPUs ajustó la forma en que interconecta distintos semiconductores para hacer que los datos fluyan más rápido y evitar que los chips queden ociosos. Esa dinámica continúa hoy, mientras Google debate cuántos chips conectar en un mismo sistema o si el hardware puede ser menos preciso para ahorrar costos. “Muchas de esas decisiones están informadas por los experimentos con los modelos”, dijo Hassabis.
En el futuro, le gustaría que el equipo de TPUs considere crear un acelerador para casos en el “borde de la red”, donde el chip se ubica más cerca de los usuarios en lugar de accederse vía la nube, para reducir la latencia. En el camino, Google también ha desarrollado sistemas para detectar con mayor rapidez fallas de fabricación que pueden tener un impacto desproporcionado en el software. Al trabajar con chips aceleradores de IA que gestionan enormes cantidades de cálculos, incluso una falla sutil puede escalar y provocar que un modelo “se autodestruya por completo”, dijo Paul Barham, científico distinguido de Google que codirige el equipo de infraestructura de Gemini.
Un problema de ese tipo ocurrió en Google hace unos dos años y tomó semanas resolverlo, dijo, describiendo estos errores como “bugs infernales”. “Ahora tenemos que hacerlo con cientos de miles de chips aceleradores en 10 segundos”, afirmó. Pese a su experiencia en el desarrollo de IA, Google enfrenta un desafío similar al de otros fabricantes de chips: estos suelen tardar unos tres años en desarrollarse de principio a fin, pero los modelos de IA evolucionan mucho más rápido.
Esto dificulta predecir qué querrán los clientes dentro de varios años. “Si alguien afirma que sabe cómo será Gemini 10, yo diría: ‘pásame de eso que estás fumando’”, dijo Ranganathan. Barham también advirtió que el estrecho ciclo de retroalimentación entre los creadores de modelos de IA y los diseñadores de hardware puede implicar el riesgo de pasar por alto nuevas ideas.
Existe “este ciclo que te atrapa en lo que funciona bien con el software y hardware actuales”, señaló. Para encontrar un punto medio, el equipo de TPUs a veces apunta a que el chip sea lo suficientemente bueno para distintos usos, aunque no sea perfecto en cada uno. La otra opción, dijo Vahdat, es planificar dos diseños distintos.
Ambos podrían no lanzarse, pero podrían hacerlo si el caso de uso para cada uno resulta lo suficientemente atractivo. A medida que los chips de Google se vuelven más populares, la empresa corre el riesgo de enfrentar restricciones de suministro, al igual que Nvidia. Un ejecutivo de una startup, que habló bajo condición de anonimato para discutir asuntos internos, señaló que el uso de TPUs en su empresa ha estado limitado por la disponibilidad y criticó que Google habría entregado prácticamente todos sus chips a Anthropic.
“En gran medida estamos priorizando el suministro que tenemos hacia los equipos más avanzados, que obviamente son los que pueden sacar mayor provecho de lo que mejor hacen las TPUs”, dijo Hassabis, en referencia a las principales firmas de IA. De cara al futuro, Google también deberá decidir cómo asignar las TPUs entre su creciente portafolio de servicios de IA y su base de clientes en expansión. “Hay beneficios en fabricar TPUs solo para Google, pero hay desventajas significativas”, dijo Vahdat.
“Eventualmente terminas en lo que llamamos una isla tecnológica. Puede ser una isla hermosa, pero será limitada en población y en diversidad. Al final, probablemente será menos eficiente.