Databricks, spécialiste des données, donne un grand coup de pouce à sa plate-forme Lakehouse. La combinaison de l’entrepôt de données et du lac de données gagne de nouvelles fonctions qui rappellent les points forts de son concurrent Snowflake.
Lors de son Data + AI Summit, Databricks a annoncé une nouvelle fonctionnalité pour son Lakehouse. Lakehouse est un terme marketing pour désigner la plate-forme que Databricks a construite, fusionnant le lac de données (pour les données non structurées) et l’entrepôt de données (pour les données structurées). En d’autres termes, Databricks souhaite que les organisations injectent toutes leurs données dans le Lakehouse, afin de les exploiter.
Marketplace et Data Cleanroom
L’introduction de la fonctionnalité Databricks Marketplace et Data Cleanrooms est la plus remarquable. Grâce au marché, les organisations peuvent partager et vendre des données et des ressources analytiques à d’autres organisations. Les entreprises peuvent également proposer des tableaux de bord sur la place de marché. Les données partagées via le marché ne nécessitent pas d’être déplacées ou répliquées. Grâce à la plate-forme Databricks, les fournisseurs peuvent proposer activement leurs données aux clients de différents fournisseurs de cloud.
Les Data Cleanrooms offrent une capacité supplémentaire. Ces salles permettent à différentes entreprises de partager et de combiner des ensembles de données de manière sécurisée, là encore sans copier les données sur un site externe.
Utile mais pas unique
Databricks affirme que la place de marché va plus loin que la concurrence car il est possible de proposer plus que de simples ensembles de données. En ce qui concerne les Data Cleanrooms, l’entreprise souligne le fait qu’il n’y a aucun risque de duplication des données (et donc de perte de contrôle).
Ces atouts ne sont pas si uniques dans la pratique. Le concurrent Snowflake a récemment annoncé sa place de marché Snowflake Marketplace. Les entreprises peuvent y partager des données, des informations, des modèles ML et bien d’autres choses encore. Les Data Cleanrooms ne sont pas non plus nouveaux et, lorsque Databricks les rendra publics dans quelques mois, ils fonctionneront à peu près de la même manière que l’alternative du même nom de Snowflake.
L’annonce montre une tendance. Il ne suffit plus d’agréger des données et de recueillir des informations : la combinaison d’ensembles de données au-delà des frontières de l’entreprise offre un potentiel énorme. Cela peut être rentable et doit être fait en toute sécurité : deux points que le nouveau Marché et les Cleanrooms abordent.
Autres innovations
Databricks a annoncé plusieurs autres améliorations pour sa plateforme. Par exemple, un aperçu de SQL Serverless on AWS, qui combine les requêtes et Elastic Compute en un tout qui devrait être plus rentable pour le client au final.
Le moteur de requête Photon fait également son retour dans les espaces de travail Databricks e, SQL CLI permet aux développeurs d’exécuter des requêtes sur leurs systèmes locaux. Pour passer plus rapidement des données à un modèle d’apprentissage automatique, Databricks présente MLflow 2.0. Cette solution reste également open source.