Nouvelles fonctionnalités Amazon SageMaker : réduction des coûts de déploiement

Amazon Web Services lance de nouvelles fonctionnalités pour Amazon SageMaker visant à réduire les coûts de déploiement de modèles en moyenne de 50 % et à diminuer la latence de réponse.

9 juin 2026

Nouvelles fonctionnalités Amazon SageMaker : réduction des coûts de déploiement

Amazon Web Services (AWS) a publié de nouvelles capacités pour son service d'apprentissage automatique basé sur le cloud, Amazon SageMaker. Ces mises à jour sont conçues pour aider les organisations à réduire considérablement les coûts et la latence associés au déploiement de grands modèles de langage et d'autres modèles fondamentaux (FM).

Les entreprises sont souvent confrontées à des défis pour optimiser les performances des FM sur les accélérateurs les plus récents tels que AWS Inferentia et les GPU. Une utilisation inefficace du matériel se produit lorsque les modèles n'exploitent pas pleinement leurs ressources attribuées. Certaines organisations ont tenté d'améliorer cela en déployant plusieurs modèles sur une seule instance, mais cette approche nécessite une orchestration d'infrastructure complexe et difficile à gérer.

Les nouvelles fonctionnalités de SageMaker permettent la création de points de terminaison basés sur des composants d'inférence. Chaque composant d'inférence abstrait un modèle d'apprentissage automatique, permettant l'allocation spécifique de ressources telles que les CPU, les GPU ou les accélérateurs AWS Neuron. Cette amélioration architecturale augmente l'utilisation des ressources et réduit le besoin de matériel surdimensionné, entraînant des économies de coûts moyennes rapportées de 50 % pour les déploiements de modèles.

De plus, l'architecture améliorée aide à atténuer les problèmes de latence causés par des temps d'inférence variables et des charges de travail fluctuantes. En gérant l'inférence des modèles plus efficacement, le service vise à offrir une expérience utilisateur plus fluide et plus prévisible. AWS indique que ces nouvelles capacités peuvent entraîner une réduction moyenne de 50 % des coûts de déploiement des modèles fondamentaux.

Source originale: aws.amazon.com