Google y Meta podrían cambiar el futuro de la inteligencia artificial juntos

Google desarrolla TorchTPU para facilitar el uso de PyTorch en sus chips de IA, reducir costos de migración y desafiar el dominio de Nvidia

thumb
Ilustración que representa la colaboración estratégica entre Google y Meta en el desarrollo de infraestructura y software para inteligencia artificial.REUTERS/Dado Ruvic

Krystal Hu, Kenrick Cai y Stephen Nellis / Reuters

Google, de Alphabet, trabaja en una nueva iniciativa para que sus chips de inteligencia artificial ejecuten mejor PyTorch, el marco de software de IA más utilizado del mundo, en un movimiento destinado a debilitar el dominio de Nvidia en el mercado de la computación de IA, según personas familiarizadas con el asunto.

El esfuerzo forma parte del agresivo plan de Google para convertir sus unidades de procesamiento tensorial (TPU) en una alternativa viable a las GPU de Nvidia, líderes del mercado. Las ventas de TPU se han convertido en un motor de crecimiento clave de los ingresos en la nube de Google, que busca demostrar a los inversionistas que sus apuestas en IA están generando retornos.

TorchTPU: compatibilidad con el estándar del mercado

Pero el hardware por sí solo no basta para impulsar la adopción. La nueva iniciativa, conocida internamente como “TorchTPU”, busca eliminar una barrera clave que ha frenado el uso de chips TPU al hacerlos totalmente compatibles y fáciles de integrar para los clientes que ya han construido su infraestructura tecnológica con PyTorch, dijeron las fuentes.

Google también contempla convertir partes del software en código abierto para acelerar su adopción entre los clientes, afirmaron algunas de las personas consultadas.

thumb

A diferencia de intentos anteriores por adaptar PyTorch a las TPU, Google ha destinado mayor atención organizativa, recursos e importancia estratégica a TorchTPU, ante la creciente demanda de empresas interesadas en adoptar estos chips, pero que ven la capa de software como un cuello de botella.

Un cambio de estrategia frente a Jax

PyTorch, un proyecto de código abierto ampliamente respaldado por Meta Platforms, es una de las herramientas más utilizadas por los desarrolladores de modelos de IA. En Silicon Valley, pocos programadores escriben cada línea de código que ejecutan los chips de Nvidia, AMD o Google.

En su lugar, dependen de herramientas como PyTorch, una colección de bibliotecas y marcos de código preescritos que automatizan tareas comunes en el desarrollo de software de IA. Lanzado en 2016, la historia de PyTorch ha estado estrechamente vinculada al desarrollo de CUDA, el software que muchos analistas de Wall Street consideran el mayor activo estratégico de Nvidia.

thumb

Durante años, ingenieros de Nvidia han trabajado para que PyTorch se ejecute con la máxima eficiencia en sus chips. En cambio, Google ha promovido internamente el uso de Jax, otro marco de código, y sus TPU se apoyan en una herramienta llamada XLA para ejecutar ese código eficientemente.

Buena parte de la pila de software de IA de Google y su optimización de rendimiento se han desarrollado en torno a Jax, lo que amplía la distancia entre cómo Google emplea sus chips y cómo los clientes desean usarlos.

Un portavoz de Google Cloud declinó comentar los detalles del proyecto, pero confirmó a Reuters que el objetivo es ofrecer mayor flexibilidad a los clientes.

thumb

Estamos viendo una demanda masiva y acelerada de nuestra infraestructura de TPU y GPU”, señaló el vocero. “Nuestro objetivo es proporcionar la flexibilidad y escala que los desarrolladores necesitan, sin importar el hardware que elijan”.

TPU para clientes empresariales

Alphabet había reservado durante mucho tiempo la mayoría de sus chips TPU para uso interno. Eso cambió en 2022, cuando su unidad de computación en la nube logró supervisar al equipo encargado de vender las TPU.

Esa medida incrementó notablemente la disponibilidad de TPU en Google Cloud. A medida que crece el interés empresarial por la IA, Google busca capitalizarlo aumentando la producción y ventas de TPU a clientes externos.

Sin embargo, el desajuste entre PyTorch, utilizado por la mayoría de desarrolladores, y Jax, optimizado para los chips de Google, implica que muchas empresas no pueden adoptar las TPU sin realizar importantes adaptaciones técnicas, lo cual implica tiempo y costos en una carrera de IA cada vez más acelerada.

Si tiene éxito, la iniciativa TorchTPU podría reducir significativamente los costos de migración para las empresas interesadas en alternativas a las GPU de Nvidia. El dominio de Nvidia se debe no sólo a su hardware, sino a su ecosistema de software CUDA, profundamente integrado en PyTorch y convertido en estándar para entrenar y ejecutar modelos de IA a gran escala.

thumb

Clientes empresariales han dicho a Google que las TPU son difíciles de adoptar para cargas de trabajo de IA porque históricamente requerían cambiar a Jax, en lugar de PyTorch, que ya domina entre los desarrolladores, dijeron las fuentes.

Alianza con Meta para acelerar la transición

Para acelerar el desarrollo, Google trabaja de cerca con Meta, creadora y administradora de PyTorch, de acuerdo con las fuentes. Ambas compañías negocian acuerdos que permitirían a Meta acceder a más TPU, en un movimiento reportado primero por The Information.

Las primeras ofertas para Meta se estructuraron como servicios gestionados por Google: clientes como Meta instalaban chips de Google diseñados para ejecutar su propio software y modelos, con soporte operativo incluido.

Meta tiene interés estratégico en optimizar el uso de TPU para reducir costos de inferencia y diversificar su infraestructura de IA, alejándose de las GPU de Nvidia para ganar poder de negociación, indicaron las fuentes.

Meta declinó hacer comentarios.

Este año, Google comenzó a vender TPU directamente para su instalación en centros de datos de los clientes, en lugar de limitar su uso a la nube de Google. En diciembre, Amin Vahdat, un veterano de la compañía, fue nombrado jefe de infraestructura de IA, con reporte directo al director ejecutivo Sundar Pichai.

Google necesita esta infraestructura tanto para ejecutar sus propios productos de IA —como el chatbot Gemini y la búsqueda basada en IA— como para atender a clientes de Google Cloud, que vende acceso a TPU a firmas como Anthropic.

«pev»