La rivalité entre AMD et Nvidia s’intensifie alors qu’AMD répond aux affirmations de Nvidia concernant la supériorité de son accélérateur GPU H100. AMD a récemment dévoilé ses accélérateurs Instinct MI300X, destinés à offrir des performances de pointe pour les charges de travail d’IA générative et d’autres applications de calcul haute performance. Malgré les déclarations antérieures d’AMD sur la supériorité du MI300X par rapport au H100, Nvidia a récemment publié des benchmarks affirmant que le H100 surpassait son concurrent.
La guerre des benchmarks
Nvidia a utilisé TensorRT-LLM, une bibliothèque open source et un SDK visant à accélérer les algorithmes d’IA générative, pour tester le H100. Selon Nvidia, le TensorRT-LLM a permis au H100 de fonctionner deux fois plus rapidement que le MI300X d’AMD, avec des optimisations appropriées. En réponse, AMD conteste ces résultats, soulignant que Nvidia a utilisé le TensorRT-LLM sur le H100, tandis qu’AMD a utilisé le vLLM dans ses propres benchmarks. De plus, la comparaison des performances a été biaisée en utilisant le type de données FP16 pour l’AMD Instinct MI300X et le type de données FP8 pour le H100. Nvidia a également inversé les données de performance, passant des chiffres de latence relative au débit absolu, selon AMD. La bataille des benchmarks continue.
Défense d’AMD face aux allégations de trucage de benchmarks par Nvidia
Dans un effort pour rétablir la vérité, AMD suggère que Nvidia a tenté de manipuler les résultats des benchmarks tout en explorant de nouvelles voies pour maximiser les performances et la puissance brute de ses accélérations Instinct MI300. La société a présenté les dernières performances du modèle de chatbot Llama 70B sur le MI300X, démontrant un avantage encore plus significatif par rapport au H100 de Nvidia.
En utilisant le modèle de langage vLLM pour les deux accélérations, le MI300X a surpassé le H100 de 2,1 fois grâce aux dernières optimisations de la pile logicielle d’AMD (ROCm). La société a souligné un avantage de performances de 1,4x par rapport au H100 (avec une configuration de type de données et de bibliothèque équivalente) plus tôt en décembre. Le choix du vLLM s’est basé sur sa large adoption dans la communauté et sa compatibilité avec les deux architectures GPU.
Même en utilisant TensorRT-LLM pour le H100 et vLLM pour le MI300X, AMD a réussi à améliorer la latence de 1,3 fois. En optant pour un FP8 de moindre précision et TensorRT-LLM pour le H100, et un FP16 de plus haute précision avec vLLM pour le MI300X, l’accélérateur d’AMD a démontré un avantage en termes de performances en matière de latence absolue.
AMD souligne que vLLM ne prend pas en charge FP8, expliquant ainsi le choix du FP16 en raison de sa popularité. Les résultats présentés par AMD visent à démontrer la comparabilité du MI300X utilisant FP16 avec le H100, même lorsque ce dernier utilise ses paramètres de performances optimaux avec le type de données FP8 et TensorRT-LLM.