En la Conferencia ISC High-Performance, Intel demostró un rendimiento líder para cargas de trabajo de alto rendimiento (HPC) e inteligencia artificial (IA); compartió su portafolio de futuros productos de HPC e IA, unificados por el modelo de programación abierta oneAPI; y anunció un esfuerzo internacional ambicioso para utilizar la supercomputadora Aurora para desarrollar modelos de IA generativa para la ciencia y la sociedad.
«Intel está comprometido en atender a la comunidad de HPC e IA con productos que ayuden a los clientes y usuarios finales a realizar descubrimientos innovadores de manera más rápida», dijo Jeff McVeigh, vicepresidente corporativo de Intel y gerente general del Grupo de Supercomputación. «Nuestro portafolio de productos que abarca la serie Intel Xeon CPU Max, la serie Intel Data Center GPU Max, los Procesadores Escalables Intel® Xeon de 4ª Generación y Habana Gaudi 2 están superando a la competencia en una variedad de cargas de trabajo, ofreciendo ventajas en energía y costo total de propiedad, democratizando la IA y brindando elección, apertura y flexibilidad».
Rendimiento de hardware a gran escala
- En la presentación especial de Intel, McVeigh destacó los últimos resultados de rendimiento competitivo en toda la gama de hardware y compartió un impulso sólido con los clientes.
- La serie Intel Data Center GPU Max supera la tarjeta Nvidia H100 PCIe en un promedio del 30% en diversas cargas de trabajo, mientras que el proveedor de software independiente Ansys muestra un aumento de velocidad del 50% para la GPU de la serie Max en comparación con el H100 en aplicaciones de HPC aceleradas por IA.
- El procesador Xeon de la serie Max, el único procesador x86 con memoria de alta velocidad, muestra una mejora del 65% en comparación con el procesador Genoa de AMD en la prueba de Gradientes Conjugados de Alto Rendimiento (HPCG)1, utilizando menos energía. La alta velocidad de la memoria se ha señalado como una de las características más deseadas para los clientes de HPC.
- Los procesadores Intel Xeon Scalable de 4ª generación, los más ampliamente utilizados en HPC, ofrecen un aumento promedio de velocidad del 50% en comparación con los procesadores Milan4 de AMD, y el nuevo clúster HPC Xeon de 4ª generación de la empresa energética BP proporciona un aumento del rendimiento 8 veces mayor en comparación con sus procesadores de generación anterior, con mayor eficiencia energética.
- El acelerador de aprendizaje profundo Gaudi2 tiene un rendimiento competitivo en entrenamiento e inferencia de aprendizaje profundo, con un rendimiento hasta 2.4 veces más rápido que el Nvidia A100.
Recientemente, los clientes han anunciado nuevas instalaciones con los procesadores Intel Xeon de 4ª generación y de la serie Max:
- La Universidad de Kyoto está implementando los procesadores Xeon de 4ª generación para Laurel 3 y Cinnamon 3, y los procesadores de la serie Max para Camphor 3.
- Cineca ha desplegado Leonardo con procesadores Intel Xeon de 4ª generación.
- El Laboratorio de Energética a Laser de la Universidad de Rochester está implementando un clúster con procesadores Xeon de 4ª generación.
- El Servicio Meteorológico Nacional de Argentina desplegará un sistema con ambos procesadores y GPUs de la serie Max.
Además, el Cambridge Open Zettascale Lab de la Universidad de Cambridge ha implementado el primer banco de pruebas de GPU Max en el Reino Unido y está obteniendo resultados iniciales positivos en aplicaciones de dinámica molecular e imágenes biológicas. Además, RIKEN anunció un memorando de entendimiento (MoU) con Intel con el objetivo de acelerar la investigación y el desarrollo conjunto en el campo de las tecnologías avanzadas de computación, como IA, HPC y computación cuántica. Como parte del MoU, RIKEN también colaborará con Intel Foundry Services para crear prototipos de estas nuevas soluciones.
Procesadores competitivos para cada carga de trabajo
Las cargas de trabajo dinámicas y emergentes de HPC e IA requieren un portafolio completo de soluciones de hardware y software. McVeigh presentó una visión general de las ofertas de centros de datos de Intel que ofrecen muchas opciones y soluciones para la comunidad de HPC, ayudando a democratizar la IA.
En su presentación, McVeigh presentó las CPUs de próxima generación de Intel para satisfacer las demandas de ancho de banda de memoria alta. Intel lideró el ecosistema en el desarrollo de un nuevo tipo de DIMM, Multiplexer Combined Ranks (MCR), para Granite Rapids. El MCR logra velocidades de transferencia de hasta 8,800 megatransfers por segundo basado en DDR5 y una capacidad de ancho de banda de memoria superior a 1.5 terabytes por segundo (TB/s) en un sistema de dos sockets. Este aumento en el ancho de banda de memoria es fundamental para alimentar el rápido crecimiento del número de núcleos de las CPUs modernas y permitir eficiencia y flexibilidad.
Intel también reveló un nuevo subsistema basado en GPU x8 de la serie Max, optimizado para IA, de Supermicro, diseñado para acelerar el entrenamiento de aprendizaje profundo. Además del acceso a través del Intel Developer Cloud beta5 a finales de este año, varios OEM ofrecerán soluciones con GPUs de la serie Max x4 y x8, subsistemas OAM y tarjetas PCIe, que estarán disponibles en verano.
La próxima generación de GPUs de la serie Max de Intel, Falcon Shores, brindará a los clientes la flexibilidad de implementar combinaciones discretas de CPU y GPU a nivel de sistema para las cargas de trabajo nuevas y en rápida evolución del futuro. Falcon Shores se basa en una arquitectura modular basada en bloques y:
- Soportará tipos de datos de HPC e IA, desde FP64 hasta BF16 y FP8.
- Permitirá hasta 288 GB de memoria HBM3 con un ancho de banda total de hasta 9.8 TB/s y una mejora drástica en la velocidad de E/S.
- Empoderará el modelo de programación CXL.
- Presentará una interfaz de programación unificada para las GPUs a través de oneAPI.
IA Generativa para la Ciencia
El Laboratorio Nacional Argonne, en colaboración con Intel y HPE, ha anunciado planes para crear una serie de modelos de IA generativa para la comunidad de investigación científica.
«El proyecto tiene como objetivo aprovechar todo el potencial del superordenador Aurora para producir un recurso que pueda ser utilizado en la ciencia aplicada en los laboratorios del Departamento de Energía y en colaboración con otros», dijo Rick Stevens, director asociado del laboratorio de Argonne.
Estos modelos de IA generativa para la ciencia se entrenarán en texto general, código, textos científicos y datos científicos estructurados de biología, química, ciencia de materiales, física, medicina y otras fuentes.
Los modelos resultantes (con hasta 1 billón de parámetros) se utilizarán en una variedad de aplicaciones científicas, desde el diseño de moléculas y materiales hasta la síntesis de conocimiento a partir de millones de fuentes para sugerir experimentos nuevos e interesantes en biología de sistemas, química de polímeros, materiales energéticos, ciencia del clima y cosmología. El modelo también se utilizará para acelerar la identificación de procesos biológicos relacionados con el cáncer y otras enfermedades, así como para sugerir objetivos para el diseño de medicamentos.
Argonne lidera una colaboración internacional para avanzar en el proyecto, que incluye a Intel, HPE, laboratorios del Departamento de Energía, universidades en Estados Unidos e internacionales, organizaciones sin fines de lucro y socios internacionales como RIKEN.
Además, Intel y el Laboratorio Nacional Argonne destacaron el progreso de la instalación, las especificaciones del sistema y los resultados de rendimiento iniciales para Aurora:
- Intel ha completado la entrega física de más de 10,000 cuchillas para el superordenador Aurora.
- El sistema completo de Aurora, construido utilizando supercomputadoras HPE Cray EX, contará con 63,744 GPUs y 21,248 CPUs, además de 1,024 nodos de almacenamiento DAOS. También utilizará la red Ethernet de alto rendimiento HPE Slingshot.
- Los resultados iniciales muestran un rendimiento líder en cargas de trabajo científicas y de ingeniería reales, con un rendimiento hasta 2 veces mayor en comparación con las GPUs AMD MI250, una mejora del 20% en la aplicación cuántica QMCPACK en comparación con H100, y una escalabilidad casi lineal en cientos de nodos.
Se espera que Aurora ofrezca más de 2 exaflops de rendimiento computacional de precisión doble cuando se lance este año.
Computación Acelerada Productiva y Abierta a través de oneAPI
En todo el mundo, alrededor del 90% de todos los desarrolladores se benefician o utilizan software desarrollado u optimizado por Intel. Desde el lanzamiento del modelo de programación oneAPI en 2020, los desarrolladores han estado demostrando oneAPI en diversos procesadores CPU, GPU, FPGA e IA de varios proveedores de hardware, enfrentando los desafíos de los modelos de programación acelerada de un solo proveedor. Las últimas herramientas de Intel oneAPI ofrecen mejoras de rendimiento para aplicaciones de HPC con offload de GPU OpenMP, amplían el soporte para OpenMP y Fortran, y aceleran la IA y el aprendizaje profundo a través de frameworks optimizados como TensorFlow y PyTorch, y herramientas de IA, lo que permite mejoras de rendimiento de varias órdenes de magnitud.
oneAPI hace que la programación multiarquitectura sea más fácil para los programadores a través de la implementación SYCL de oneAPI, los complementos oneAPI para procesadores Nvidia y AMD desarrollados por Codeplay, y la Herramienta de Compatibilidad Intel DPC++ (basada en SYCLomatic de código abierto) que migra el código de CUDA a SYCL y C++, donde el 90-95% del código generalmente se migra automáticamente. El código SYCL resultante tiene un rendimiento comparable al mismo código en ejecución en sistemas nativos de Nvidia y AMD. Los datos muestran que el código SYCL para la aplicación de astrofísica DPEcho en ejecución en la GPU de la serie Max supera en un 48% al mismo código CUDA en Nvidia H100.
El ecosistema más amplio también está adoptando SYCL. Eviden, una empresa de Atos, anunció CEPP one+ con Intel, un servicio de modernización de código HPC/AI basado en el Centro de Excelencia en Programación de Rendimiento (CEPP) de Eviden. CEPP one+ se centrará en la adopción de SYCL y OpenMP, preparando a la comunidad para un entorno de cómputo heterogéneo, al tiempo que ofrece libertad de elección en hardware a través de estándares abiertos.