Durante el AWS re: Invent, Amazon Web Services, Inc. (AWS), una empresa de Amazon.com, Inc. (NASDAQ: AMZN), anunció tres nuevas instancias de Amazon Elastic Compute Cloud (Amazon EC2) con tecnología de tres nuevos chips diseñados por AWS que ofrecen a los clientes un rendimiento de cómputo aún mayor a un costo menor para una amplia gama de cargas (workloads). Las instancias Hpc7g, con la tecnología de los nuevos chips AWS Graviton3E, ofrecen hasta dos veces un mejor rendimiento de punto flotante en comparación con las instancias C6gn y hasta un 20% más de rendimiento en comparación con las instancias Hpc6a, ambas de la generación actual, lo que ofrece la mejor relación precio-rendimiento para las cargas de computación de alto rendimiento (HPC) en AWS.
De igual forma, las instancias C7gn, que cuentan con los nuevos AWS Nitro Cards, ofrecen hasta el doble de ancho de banda de red y el doble de rendimiento de paquetes por segundo por CPU en comparación con las instancias optimizadas para redes de la generación actual, lo que brinda un mejor ancho de banda de red, rendimiento de paquetes más alto y la mejor relación precio-rendimiento para las cargas (workloads) intensivas de red. Asimismo, las instancias Inf2, con la tecnología de los nuevos chips AWS Inferentia2, están diseñadas específicamente para ejecutar los modelos de aprendizaje profundo (Deep Learning) más grandes con hasta 175 mil millones de parámetros, y ofrecen hasta 4 veces más rendimiento y una latencia hasta 10 veces menor en comparación con las instancias Inf1 de la generación actual. Esto brinda la menor latencia al costo más bajo para la inferencia de Machine Learning (ML) en Amazon EC2.
AWS tiene una década de experiencia en el diseño de chips desarrollados para rendimiento y escalabilidad en la nube a un costo menor. La compañía líder en servicios de nube, introdujo diseños de chips especializados, que hacen posible que los clientes ejecuten cargas aún más exigentes con características variables que requieren un procesamiento más rápido, mayor capacidad de memoria, E/S de almacenamiento más rápido y mayor ancho de banda de red. Desde la llegada del sistema Nitro en 2013, AWS ha desarrollado varias innovaciones de silicio diseñadas por la compañía, incluidas cinco generaciones del sistema Nitro, tres generaciones de chips Graviton optimizados en cuanto rendimiento y costo para una amplia variedad de cargas, dos generaciones de chips Inferentia para inferencia ML y chips Trainium para entrenamiento de ML.
AWS utiliza la automatización del diseño electrónico basada en la nube como parte de un ciclo de desarrollo ágil para el diseño y la verificación de silicio, lo que permite a los equipos innovar más rápido y hacer que los chips estén disponibles para los clientes con mayor rapidez. AWS puede ofrecer un nuevo chip basado en un proceso de silicio más moderno y eficiente en cuanto consumo a un ritmo rápido y predecible. Con cada nuevo chip, la compañía ofrece una mejora gradual en el rendimiento, el costo y la eficiencia de las instancias de Amazon EC2 que lo aloja, lo que brinda a los clientes aún más opciones de combinaciones de chips e instancias optimizadas para sus requisitos únicos de workloads.
“Cada generación de silicio diseñado por AWS (chips Graviton, Trainium o Inferentia a Nitro Cards) ofrece niveles crecientes de rendimiento, menor costo y mayor eficiencia de consumo para una amplia gama de workloads”, dijo David Brown, vicepresidente de Amazon EC2. “Esa entrega consistente, combinada con las capacidades de nuestros clientes para lograr un rendimiento de precio superior utilizando el silicio de AWS, impulsa nuestra innovación continua. Las instancias de Amazon EC2 que presentamos ofrecen mejoras significativas para los workloads de inferencia de ML, de uso intensivo de redes y de HPC, lo que brinda a los clientes aún más instancias para satisfacer sus necesidades específicas”.
Las instancias de Hpc7g están diseñadas específicamente para ofrecer el mejor rendimiento de precio para ejecutar workloads de HPC a escala en Amazon EC2
Organizaciones de numerosos sectores confían en HPC para resolver sus problemas académicos, científicos y comerciales más complejos. En la actualidad, clientes como AstraZeneca, Formula 1 y Maxar Technologies ejecutan cargas de trabajo de HPC convencionales, como procesamiento genomico, dinámica de fluidos computacional (CFD) y simulaciones de pronóstico del tiempo, en AWS para aprovechar la seguridad, la escalabilidad y la elasticidad superiores que ofrece. Los ingenieros, investigadores y científicos ejecutan sus cargas de trabajo de HPC en instancias de Amazon EC2 optimizadas para HPC (por ejemplo, Hpc6a, Hpc6id, C5n, R5n, M5n y C6gn) que brindan una capacidad de cómputo prácticamente ilimitada y altos niveles de ancho de banda de red entre servidores que procesan e intercambian datos a través de miles de núcleos. Si bien el rendimiento de estas instancias es suficiente para la mayoría de los casos de uso de HPC en la actualidad, las aplicaciones emergentes, como la inteligencia artificial (IA) y los vehículos autónomos, requieren instancias optimizadas para HPC que puedan escalar aún más para resolver problemas cada vez más difíciles y reducir así el costo de los workloads de HPC, que pueden escalar a decenas de miles de núcleos o más.
Las instancias Hpc7g con la tecnología de los nuevos procesadores AWS Graviton3E ofrecen la mejor relación precio-rendimiento para los workloads de HPC (por ejemplo, CFD, simulaciones meteorológicas, genómicas y dinámica molecular) en Amazon EC2. Las instancias hpc7g proporcionan hasta dos veces mejor rendimiento de punto flotante en comparación con las instancias C6gn de la generación actual con tecnología de procesadores Graviton2, y hasta un 20% más de rendimiento en comparación con las instancias Hpc6a, lo que permite a los clientes realizar cálculos complejos en clústeres de HPC de hasta decenas de miles de núcleos. De igual forma, las instancias Hpc7g también brindan un ancho de banda de memoria alta y el ancho de banda de red más alto por CPU en todos los tipos de instancias de AWS para lograr resultados más rápidos para las aplicaciones de HPC. De esta manera, los clientes pueden usar instancias Hpc7g con AWS ParallelCluster, una herramienta de administración de clústeres de código abierto, para aprovisionar instancias Hpc7g junto con otros tipos de instancias, lo que les brinda la flexibilidad de ejecutar diferentes tipos de workloads dentro del mismo clúster de HPC. Para obtener más información sobre las instancias Hpc7g, visite aws.amazon.com/ec2/instance-types/hpc7g.
Las instancias C7gn ofrecen el mejor rendimiento para workloads intensivos en la red con mayor ancho de banda, mayor rendimiento de tasa de paquetes y menor latencia
Los clientes utilizan instancias optimizadas para red Amazon EC2 para ejecutar sus workloads intensivos de red más exigentes, como aplicaciones virtuales (firewalls, enrutadores virtuales y balanceadores de carga) y cifrado de datos. Los clientes necesitan escalar el rendimiento de estos workloads para manejar el aumento del tráfico de red en respuesta a los picos de actividad, o reducir el tiempo de procesamiento para brindar una mejor experiencia a sus usuarios finales. Hoy en día, los clientes usan tamaños de instancia más grandes para obtener un mayor rendimiento de la red, implementando más recursos informáticos de los necesarios, lo que aumenta los costos. Estos clientes necesitan un mayor rendimiento de paquetes por segundo, mayor ancho de banda y un rendimiento criptográfico más rápido para reducir los tiempos de procesamiento de datos.
Las instancias C7gn, con los nuevos AWS Nitro Cards impulsados por los nuevos chips Nitro de quinta generación con aceleración de red, ofrecen el ancho de banda y el rendimiento de procesamiento de paquetes más altos en todas las instancias optimizadas para red de Amazon EC2. Las Nitro Cards descargan y aceleran la entrada/salida de las funciones de la CPU del host hacia el hardware especializado para entregar prácticamente todos los recursos de una instancia de Amazon EC2 a los workloads de los clientes ofreciendo un rendimiento más consistente con una menor utilización de CPU.
Las nuevas AWS Nitro Cards permiten que las instancias C7gn ofrezcan 2 veces el ancho de banda de red y 2 veces el rendimiento de paquetes por segundo por CPU y reducen la latencia de red del Elastic Fabric Adapter (EFA) en comparación con las instancias Amazon EC2 optimizadas para redes de la generación actual. Las instancias C7gn también ofrecen hasta un 25% más de rendimiento de cómputo y un rendimiento hasta dos veces más rápido para workloads criptográficos en comparación con las instancias C6gn. Asimismo, las instancias C7gn permiten a los clientes escalar tanto para desempeño y rendimiento como para reducir la latencia de la red para optimizar el costo de sus workloads más exigentes y con uso intensivo de la red en Amazon EC2. Las instancias C7gn están disponibles en vista previa. Para obtener más información sobre las instancias C7gn, visite aws.amazon.com/ec2/instance-types/c7gnorte.
Las instancias Inf2 están diseñadas específicamente para servir a las implementaciones de modelos de Aprendizaje Profundo más exigentes de la actualidad, con soporte para inferencia distribuida y redondeo estocástico.
En respuesta a la demanda de mejores aplicaciones e incluso experiencias personalizadas más personalizadas, los científicos de datos y los ingenieros de ML están creando modelos de aprendizaje profundo más grandes y complejos. Por ejemplo, los modelos de Large Language (LLM) con más de 100 mil millones de parámetros son cada vez más frecuentes, pero se entrenan con enormes cantidades de datos, lo que impulsa un crecimiento sin precedentes en los requisitos de cómputo. Si bien el entrenamiento recibe mucha atención, la inferencia representa la mayor parte de la complejidad y el costo (es decir, por cada dólar gastado en capacitación, se gastan hasta nueve en inferencia) de ejecutar el ML en producción, lo que puede limitar su uso y detener la innovación del cliente.
Por tal razón, los clientes desean utilizar modelos de aprendizaje profundo de última generación en sus aplicaciones a escala, pero se ven limitados por los altos costos del cómputo. Cuando AWS lanzó las instancias Inf1 en 2019, los modelos de Aprendizaje Profundo eran de millones de parámetros. Desde entonces, el tamaño y la complejidad de los modelos de Aprendizaje Profundo han crecido exponencialmente y algunos superan cientos de miles de millones de parámetros, un aumento de 500 veces. Los clientes que trabajan en aplicaciones de próxima generación que utilizan los últimos avances en Aprendizaje Profundo desean hardware costo-efectivo, y eficiente en cuanto a consumo de energía, que admita baja latencia, inferencia de alto rendimiento, con software flexible que permita a los equipos de ingeniería implementar rápidamente sus últimas innovaciones a escala.
Las instancias Inf2 con los nuevos chips Inferentia2, admiten grandes modelos de Aprendizaje Profundo (LLM, generación de imágenes y detección de voz automatizada) con hasta 175 mil millones de parámetros, mientras ofrece el costo por inferencia más bajo en Amazon EC2. Inf2 es la primera instancia optimizada que admite inferencia distribuida, una técnica que distribuye modelos grandes en varios chips para ofrecer el mejor rendimiento de los modelos de Aprendizaje Profundo con más de 100 mil millones de parámetros. Las instancias de Inf2 también son la primera instancia en la nube que admite el redondeo estocástico, una forma de redondeo probabilístico que permite un alto rendimiento y una mayor precisión en comparación con los modos de redondeo heredados.
Asimismo, las instancias de Inf2 admiten una amplia gama de tipos de datos, incluido CFP8, que mejora el rendimiento y reduce la potencia por inferencia, y FP32, que aumenta el rendimiento de los módulos que aún no han aprovechado los tipos de datos de menor precisión. Así, lo clientes pueden comenzar con las instancias Inf2 utilizando AWS Neuron, el kit de desarrollo de software (SDK) unificado para inferencia de ML. De igual manera, AWS Neuron está integrado con marcos de ML populares como PyTorch y TensorFlow para ayudar a los clientes a implementar sus modelos existentes en instancias Inf2 con cambios mínimos en el código. Dado que la división de modelos grandes en varios chips requiere una comunicación rápida, las instancias Inf2 son compatibles con la interconexión entre instancias de alta velocidad de AWS, NeuronLink, que ofrecen 192 GB/s de conectividad en anillo. Las instancias Inf2 ofrece hasta 4 veces el rendimiento y hasta 10 veces menos latencia en comparación con las instancias Inf1, y también ofrecen hasta un 45% más de rendimiento por vatio en comparación con las instancias basadas en GPU. Las instancias Inf2 están disponibles en vista previa. Para obtener más información sobre las instancias Inf2, visite aws.amazon.com/ec2/instance-types/inf2.
“Usamos AWS para ejecutar simulaciones altamente complejas para ayudar a nuestros clientes a construir la próxima generación de rascacielos, estadios, centros de datos e infraestructura crucial, además de evaluar y brindar información sobre microclimas urbanos, calentamiento global y cambio climático, algo que afecta la vida de muchas personas en todo el mundo”, dijo la Dra. Sina Hassanli, ingeniera senior de Arup, un colectivo global de diseñadores, consultores, asesores y expertos en ingeniería y sostenibilidad dedicados al desarrollo sostenible y al uso de la imaginación y la tecnología con rigor para dar forma a un mundo mejor. “Nuestros clientes exigen constantemente simulaciones más rápidas y precisas a un menor costo para informar sus diseños en las primeras etapas de desarrollo, y ya estamos anticipando cómo las nuevas instancias Amazon EC2 Hpc7g con mayor rendimiento ayudarán a nuestros clientes a innovar más rápido y de manera eficiente», aseguró.
Por su parte, Mulyanto Poort, vicepresidenta de cómputo de alto rendimiento en Rescale, una empresa de tecnología que crea software y servicios en la nube que permiten a organizaciones de todos los tamaños ofrecer avances científicos y de ingeniería que enriquecen a la humanidad comentó que “La latencia más baja y el rendimiento mejorado de la red entre nodos son cruciales para las aplicaciones de HPC. La capacidad de iterar y mejorar rápidamente el diseño de productos mediante CFD es importante para nuestros clientes, que también se preocupan cada vez más por la sostenibilidad ambiental además del rendimiento y la flexibilidad al utilizar la nube. Rescale está entusiasmada con las instancias de Amazon EC2 Hpc7g que ofrecen más rendimiento de punto flotante y más ancho de banda EFA. Ya estamos anticipando cómo la mejor relación precio-rendimiento de las instancias Hpc7g, combinada con la eficiencia energética de los procesadores AWS Graviton, impulsará CFD y una gran cantidad de workloads de HPC de producción del mundo real.