La inteligencia artificial (IA) está en todas partes, desde la medicina hasta la automoción, y desde la creación de textos originales hasta videos que parecen un sueño (o incluso una pesadilla).
Sin embargo, para que estas aplicaciones de IA funcionen de manera eficiente, requieren hardware especializado capaz de manejar las demandas intensivas de memoria y procesamiento en paralelo.
Por esta razón, se han desarrollado chips especializados en IA, optimizados para ejecutar algoritmos de aprendizaje automático y redes neuronales con una velocidad y eficiencia sin precedentes.
¿Quieres conocer cómo funcionan, o conocer cuáles son los chips de IA más modernos, qué pueden hacer y cuánto cuestan? A continuación, examinaremos en detalle todo esto y mucho más.
¿Qué son los chips para IA?
Los chips para inteligencia artificial (IA) son circuitos integrados diseñados específicamente para manejar las tareas computacionales complejas que requieren los algoritmos de IA.
Estos chips están optimizados para procesar grandes volúmenes de datos a alta velocidad y realizar cálculos complejos de manera eficiente, lo cual es esencial para aplicaciones como el reconocimiento de voz y los modelos de lenguaje natural (LLMs).
Aunque existen muchos tipos de chips para IA, todos comparten una característica fundamental: el procesamiento en paralelo. Esto significa que pueden ejecutar múltiples cálculos simultáneamente, y con el menor consumo energético posible.
¿Cómo funcionan los chips para IA?
Cuando la IA era una tecnología emergente tuvo que adaptarse al hardware existente. Por esa razón, las primeras aplicaciones de IA aprovecharon las tarjetas gráficas, y en específico sus procesadores; las GPUs.
GPUs (Graphics Processing Units)
Originalmente, las GPUs se desarrollaron para el procesamiento de gráficos en videojuegos y aplicaciones visuales. Algo que siguen haciendo en nuestros ordenadores.
Pero a medida que la IA comenzó a demandar mayor poder de procesamiento, las GPUs demostraron ser ideales para entrenar redes neuronales profundas debido a su arquitectura paralela.
En los comienzos, frameworks como CUDA de Nvidia jugaron un papel fundamental al permitir que los desarrolladores de IA aprovecharan al máximo el poder de las GPUs.
CUDA permitió la programación en paralelo en las GPUs de Nvidia, lo que aceleró enormemente el entrenamiento de modelos de IA. También cimentó la actual hegemonía de Nvidia en este campo.
Las TPUs (Tensor Processing Units)
Las TPUs fueron introducidas por Google en 2016 como respuesta a la creciente demanda de procesamiento para tareas de IA, particularmente en el entrenamiento y la inferencia de redes neuronales profundas.
Una TPU está diseñadas para realizar procesamiento matricial, lo que implica descomponer los datos de entrada en múltiples tareas denominadas vectores.
Esto permite a las TPU resolver grandes tareas matemáticas mucho más rápido y con menos consumo de energía que los procesadores tradicionales. Las TPU pueden ser entre 30 y 80 veces más eficientes por vatio que las CPU y GPU actuales.
Nvidia incluye una tecnología similar con sus TensorCores, que están tanto en sus tarjetas gráficas RTX como en GPUs diseñadas para centros de datos.
NPUs (Neural Processing Units)
A diferencia de las GPUs y TPUs, las NPUs están especializadas en la inferencia y la ejecución de redes neuronales con baja latencia y alto rendimiento en dispositivos con limitaciones energéticas.
Por esto, las NPUs se encuentran en dispositivos móviles, como smartphones y cámaras, así como en algunos procesadores avanzados para vehículos autónomos.
Por ejemplo, tanto los procesadores móviles de Apple (desde el A11 Bionic del iPhone 8) como los de ordenadores (Apple Silicon M1/M2) incluyen NPUs, que ahí son conocidas como Neural Engine.
Lo mismo puede decirse de los “tope de gama” de Qualcomm desde el Snapdragon 855. Por ejemplo, el Snapdragon 8 Gen 3 cuenta con una NPU Hexagon, que mejora su rendimiento en tareas de IA.
¿Cómo se mide el rendimiento en chips para IA?
Para medir el rendimiento y comparar diferentes chips para IA, se han utilizado varias métricas y técnicas que evalúan la capacidad de los chips para manejar tareas específicas de IA.
Inicialmente se utilizaban los FLOPS, que son las operaciones de punto flotante por segundo. Esta medida daba una idea de la capacidad de cálculo bruto de una o varias CPUs, pero no se enfoca en tareas específicas de IA.
Por eso se comenzamos a usar los TOPS (operaciones de tensor por segundo). Como ya hemos descrito, estas operaciones son fundamentales en el entrenamiento y la inferencia de modelos de IA, y por eso son la métrica de rendimiento más utilizada.
Otra métrica importante es la latencia, que mide el tiempo que tarda un chip en completar una tarea específica. Esto es crucial en aplicaciones en tiempo real, como el reconocimiento de voz.
Existen benchmarks específicos para IA, como MLPerf, DAWNBench o SPEC AI (entre otros). Estos son un conjunto de tareas estándar que permiten medir el rendimiento de hardware y software en tareas de IA.
¿Cuáles son los chips para IA más potentes?
A continuación, se presentan algunos de los chips para IA más avanzados disponibles actualmente. Algunos de ellos se pueden comprar (si tienes lo suficiente), pero a otros solo puede accederse en la nube.
Google TPU v4 Pods
Diseñados específicamente para tareas de aprendizaje profundo, estos clústeres de TPUs pueden incluir hasta 4096 chips TPU v4 por pod. Con una capacidad de hasta 275 TFLOPS (teraFLOPS) por chip, los TPU v4 Pods son extremadamente potentes.
Este rendimiento masivo es ideal para el entrenamiento de modelos de IA a gran escala y la investigación avanzada.
NVIDIA H100
Esta es la GPU más reciente y potente de NVIDIA, diseñada para tareas de IA y computación de alto rendimiento. Con un costo de hasta $35,000 euros por unidad, cuenta con 14592 CUDA Cores y 456 Tensor Cores.
Esto le brinda a la Nvidia H100 hasta 700 TFLOPS de rendimiento de IA, superando significativamente a sus predecesoras (como la A100).
La H100 es ideal para centros de datos, supercomputación y investigación avanzada, ofreciendo un rendimiento excepcional en tareas de entrenamiento e inferencia de modelos de IA.
Intel Habana Gaudi2
Habana Gaudi2 es la apuesta de Intel por robarle un trozo del pastel a Nvidia. Este es un acelerador de IA diseñado para optimizar el rendimiento en tareas de entrenamiento de modelos de IA.
Este chip cuenta con 24 núcleos de procesamiento tensorial (TPCs). En términos de rendimiento, el Gaudi2 ofrece un rendimiento de hasta 32 TFLOPS por chip. Esto es hasta 2.5 veces superior al de su predecesor
El Gaudi2 es muy potente y se utiliza principalmente en centros de datos. El precio de este chip puede variar dependiendo del proveedor.
AMD Instinct MI325X
El MI325X diseñado para ser utilizado en centros de datos y aplicaciones de supercomputación, donde se requiere un alto rendimiento y capacidad de procesamiento.
Con poco más de 2 meses en el mercado, los datos que se poseen del MI325X lo ubican en el mismo segmento del H100 de Nvidia. En específico ofrece un rendimiento 1.3 veces superior el H100.
Estos chips representan la vanguardia del hardware especializado en IA. Lo que queda claro es que se trata de productos altamente especializados, y acceder a ellos directamente no es tarea sencilla.