AWS utilise le format de table ouvert Apache Iceberg pour ses activités d’analyse, d’apprentissage automatique et de stockage. Elle le fait à la demande des clients qui utilisent le stockage objet S3.
AWS adopte le format ouvert Iceberg, mais pourquoi ? Iceberg a été mentionné pour la première fois en 2023 dans un aperçu de Redshift, un entrepôt de données que les clients peuvent utiliser pour exécuter des requêtes analytiques dans des lacs de données externes. Mais pourquoi AWS n’utilise-t-elle que ce format et pas Delta Lake, par exemple ?
Pourquoi Iceberg ?
Iceberg a été développé par Netflix en 2015 parce que Hive Tables sur S3 ne répondait pas à ses besoins. Depuis lors, il s’agit d’un format ouvert. Iceberg ajoute une couche supplémentaire de métadonnées aux ensembles de données, ce qui permet de modifier les tableaux sans avoir à retransmettre l’ensemble des données.
Selon Andy Warfield, ingénieur chez AWS, Iceberg aide les clients à combiner des bases de données avec des données stockées dans S3. Grâce aux métadonnées d’Iceberg, les utilisateurs peuvent facilement apporter des ajustements à leurs ensembles de données.
AWS a présenté S3 Tables lors de re:Invent 2024, une nouvelle fonctionnalité Iceberg qui rend l’analyse des données plus rapide grâce au pré-partitionnement et aux mises à jour et optimisations automatiques. Elle fonctionne également bien avec des outils populaires tels que Sagemaker et Redshift, selon The Register. L’approche Iceberg est également utilisée dans Sagemaker, la plateforme d’apprentissage automatique, et sert à faciliter certains aspects de l’entreposage de données, de l’analyse et des alertes de données.
AWS a choisi Iceberg en raison de son large soutien de la part d’entreprises technologiques telles que Google et Snowflake. Le géant de l’informatique en nuage a donc omis Delta Lake. Ce format a été développé par Databricks et est très populaire auprès de Microsoft. Delta Lake est également open source, mais AWS estime qu’Iceberg répond à ses besoins, tant sur le plan technique que pratique, pour satisfaire la demande actuelle des clients.
lire aussi