AWS Glue ajoute la compaction automatique pour des requêtes Iceberg plus rapides

Amazon Web Services a introduit une fonction de compaction automatique dans AWS Glue pour améliorer les performances des requêtes sur les tables Apache Iceberg. Cela résout les problèmes de petits fichiers générés par l'ingestion de données en temps réel.

4 juin 2026

AWS Glue ajoute la compaction automatique pour des requêtes Iceberg plus rapides

Amazon Web Services (AWS) a lancé une nouvelle capacité de compaction automatique pour son service AWS Glue, visant à accélérer les requêtes sur les tables Apache Iceberg dans les data lakes. Cette fonctionnalité aborde le problème des petits fichiers qui peuvent ralentir les opérations de lecture.

Apache Iceberg est un format de table ouvert offrant des transactions ACID et une meilleure gestion des données par rapport aux architectures traditionnelles de data lake. La nouvelle fonction de compaction automatique résout le problème fréquent de la multiplication des petits fichiers, souvent générés par les flux de données en temps réel et les processus d'ingestion. Auparavant, la gestion de ces petits fichiers nécessitait des processus complexes d'extraction, de transformation et de chargement (ETL) ou des solutions personnalisées.

En automatisant la compaction des petits fichiers en fichiers plus grands et plus efficaces, AWS Glue contribue à optimiser les performances des tables. Cela peut se traduire par une récupération de données plus rapide, des coûts de requête réduits et une efficacité globale améliorée pour les charges de travail analytiques. Cette fonction s'inscrit dans les efforts continus d'AWS pour simplifier la gestion des data lakes et améliorer les capacités de traitement des données.

Cette amélioration est particulièrement bénéfique pour les organisations utilisant les data lakes à des fins diverses, y compris l'analyse en temps réel et la synchronisation des applications. L'optimisation automatisée prend en charge les exigences de qualité des données et de gouvernance dans des environnements exigeants, réduisant ainsi la charge opérationnelle et la complexité.

Source originale: aws.amazon.com