Du libre-service à l'architecture dynamique, pour une exploitation productive des données

Les données jouent un rôle essentiel dans toute organisation moderne. À l’heure où les entreprises explorent les possibilités de l’IA générative, il est particulièrement important d’y intégrer des données de qualité. En effet, si vous n’alimentez pas les modèles avec des données précises, ne comptez pas sur des résultats fiables. Quelle est la meilleure stratégie pour préparer les données ? Et où vaut-il mieux les stocker ? Présentation de quelques tendances liées à l’efficacité des architectures de données.

L’analyse des données et l’IA figurent en tête des priorités pour la plupart des entreprises. Mais elles n’apportent pas toujours les résultats et gains de productivité escomptés. Dans un article précédent, vous avez pu découvrir les principaux écueils et la façon de les contourner. La base de tout projet analytique fructueux réside dans les données utilisées pour faire fonctionner un modèle. À défaut de données fiables et aisément accessibles, vous allez droit au mur.

La prise de conscience que l’IA n’est pas la panacée ne cesse de gagner du terrain. Si vos données ne sont exactes qu’à 80 %, le modèle obtenu risque également d’être erroné dans un cas sur cinq. Pire encore, si vous entraînez des modèles à partir de données historiques comportant un biais humain, ce biais altérera aussi vos modèles. À titre d’exemple, si une banque a attribué par le passé de mauvaises cotes de solvabilité à certains groupes démographiques ou à des minorités, vos modèles présenteront le même comportement. Dans un prochain article, nous approfondirons cette question et expliquerons pourquoi la confiance est si importante pour l’utilisation des données.

Alors, comment pouvez-vous améliorer la qualité des données ?

Nettoyer les données vs tout rassembler tel quel

Dans la pratique, deux extrêmes sont possibles. D’un côté, nous pourrions essayer de nettoyer toutes les données brutes avant de les analyser. Pour ce faire, il faut extraire les données des silos connus puis les intégrer dans un entrepôt de données centralisé. Vu la quantité, la qualité et la rapidité requises en matière de données, cette approche prend du temps et est quasi impossible à mettre en œuvre. À l’opposé de l’entrepôt de données se trouve l’option du lac de données, où l’on rassemble toutes les données – y compris les données brutes et non structurées – sans les traiter tant qu’on n’en a pas effectivement besoin. Bien qu’elle ne soit certainement pas irréalisable vu la capacité actuelle des disques et du cloud, cette méthode ne fait que repousser le problème. Ainsi, comme c’est souvent le cas, la réponse se trouve quelque part au milieu…

Les silos sont tellement persistants qu’il nous faut bien accepter qu’ils seront toujours là. Nous pouvons toutefois les contrôler grâce à une architecture de données appropriée. Voilà pourquoi les entreprises sont de plus en plus en quête d’une méthode pragmatique pour proposer des données diversifiées. Si certaines données doivent être prêtes à la consommation immédiate, d’autres peuvent encore tranquillement attendre. On obtient donc une combinaison dynamique de stratégie fondée sur un entrepôt de données et d’autres types d’architectures.

Les données en tant que produit et libre-service

L’architecture destinée à combiner le meilleur des deux mondes est le Data Mesh ou « maillage de données », dont certains piliers sont voués à perdurer. Ainsi, le Data Mesh part du principe que les données sont un produit. Au lieu de tout vouloir centraliser, on laisse alors la responsabilité entre les mains du gestionnaire des données. Tout comme un produit physique, les données ont aussi un cycle de vie et une certaine qualité qui détermine leur valeur. Et comme pour ce produit, vous pouvez proposer des données en les intégrant dans un catalogue.

Cela nous amène à une autre tendance qui ne fera qu’accroître la productivité du traitement de données : le libre-service. Contrairement au tableau Excel classique, qui est aussi une forme de libre-service, nous avons besoin d’outils modernes offrant une transparence maximale. D’où viennent les données ? Dans quelle mesure sont-elles complètes et exactes ? Autant d’indicateurs qui permettent de mieux comprendre un écheveau souvent complexe et d’optimiser la traçabilité des données. Le catalogue de SAS en tient compte et automatise le processus en se complétant lui-même au fil de l’utilisation des données. Combinée au feed-back des utilisateurs, une telle approche peut considérablement enrichir votre catalogue de données, de sorte que chacun puisse aisément déployer les données pertinentes.

Avec ou sans cloud ?

Les explications qui précèdent montrent clairement que le lieu de stockage n’a plus guère d’importance. Comme nous déplaçons sans cesse les données, nous ne sommes plus toujours obligés d’installer les plateformes au plus près du noyau des données. Cela permet aux entreprises d’explorer des alternatives telles que l’approche multicloud. Aujourd’hui, par exemple, il existe un large éventail de bases de données liées au cloud qui offrent un stockage économique sans exiger une architecture particulière. Ces plateformes sont très ouvertes et misent essentiellement sur les performances, l’évolutivité et la sécurité.

Un bon exemple de ces plateformes de données à croissance rapide est le partenaire de SAS Snowflake. Comme l’utilisateur ne doit rien construire par lui-même, ce type de solution abaisse le seuil d’intégration des données dans le cloud. Snowflake va même plus loin et permet aux entreprises de proposer des données à des utilisateurs externes via une plateforme marketplace payante ou non. Cela pourrait s’avérer intéressant pour les développeurs d’applications. Pensez, par exemple, à une application intelligente permettant de mieux coordonner la production, le transport et la consommation d’énergie. Pour cela, nous aurions besoin d’une grande quantité de données dispersées tous azimuts. Quelle est la capacité en termes de panneaux solaires ? Quel genre de météo peut-on escompter ? Quels sont les prix actuels de l’électricité ? Combien de voitures sont en train de recharger pour l’instant ? Les plateformes liées au cloud permettent aux organisations d’utiliser et d’enrichir leurs données mutuelles.

Pour ceux que le cloud public n’inspire pas, le monde de l’open source offre des solutions de stockage intéressantes. Parquet et ORC sont deux formats de stockage sous-tendus par une large communauté. Faciles à mettre en place et très performants pour l’utilisation de données, ces outils sont aussi aisément accessibles à partir de la plateforme SAS.

Stables et dynamiques

Ces divers exemples s’inscrivent dans la philosophie selon laquelle l’utilisateur doit pouvoir accéder à un maximum de données, quel que soit leur lieu de stockage exact. En effet : personne n’a toutes ses données à un seul endroit. Les solutions doivent être stables, simples et dynamiques, surtout maintenant que les utilisateurs commerciaux s’intéressent de plus en plus aux données et à l’analytique. C’est à cette condition seulement que la productivité de vos projets liés aux données atteindra des sommets.

Ceci est une contribution soumise par SAS. Dans le troisième et dernier article de cette série sur l’utilisation productive de l’analytique, nous nous concentrerons sur l’importance de la confiance. Sans confiance envers les données, les algorithmes et les résultats des modèles, on n’obtient que des discussions qui minent à leur tour la productivité des projets.

Cookie	Duration	Description
__gads	1 year 24 days	Le cookie __gads, défini par Google, est stocké sous le domaine DoubleClick et permet de suivre le nombre de fois où les utilisateurs voient une publicité, de mesurer le succès de la campagne et de calculer ses revenus. Ce cookie ne peut être lu qu'à partir du domaine sur lequel il est installé et ne permet pas de suivre les données lors de la navigation sur d'autres sites.
_ga	2 years	Il s'agit d'un cookie de base de Google Analytics permettant d'identifier les utilisateurs de notre site Web. Par défaut, nous utilisons une version limitée de Google Analytics avant que les cookies ne soient acceptés. Les données y sont rendues anonymes et les fonctions de marketing sont désactivées.
_gid	1 day	Il s'agit d'un cookie de base de Google Analytics permettant d'identifier les utilisateurs de notre site Web. Par défaut, nous utilisons une version limitée de Google Analytics avant que les cookies ne soient acceptés. Les données y sont rendues anonymes et les fonctions de marketing sont désactivées.
cli_user_preference	1 year	Ce cookie garantit le bon fonctionnement de notre notification de cookies. Vos préférences sont stockées dans un cookie, afin que nous le sachions lors de votre prochaine visite.
CONSENT	2 years	YouTube place ce cookie via les vidéos YouTube intégrées et enregistre des données statistiques anonymes.
cookielawinfo*	1 year	Ce cookie garantit que notre notification de cookies fonctionne correctement. Vos préférences sont enregistrées dans un cookie afin que nous sachions quand vous nous rendrez visite la prochaine fois.
IDE	1 year 24 days	Les cookies Google DoubleClick IDE sont utilisés pour stocker des informations sur la façon dont l'utilisateur utilise le site web afin de lui présenter des annonces pertinentes et en fonction de son profil.
itdaily_lang	1 year	Ce cookie est nécessaire pour masquer la notification du pays. La notification du pays est affichée lorsque vous visitez le site web à partir d'un pays. C'est pourquoi nous proposons également une édition spécifique de ITdaily. Vous pouvez masquer cette notification grâce à ce cookie.
itdaily_theme	1 year	Ce cookie enregistre si vous voulez activer la version darkmode ou normale.
PHPSESSID	1 day	Ce cookie provient d'applications PHP standard. Le cookie est utilisé pour stocker et identifier une session d'utilisateur. Il s'agit d'un cookie de session qui est immédiatement supprimé lorsque vous fermez le navigateur.
test_cookie	15 minutes	Le test_cookie est défini par doubleclick.net et est utilisé pour déterminer si le navigateur de l'utilisateur prend en charge les cookies.
viewed_cookie_policy	1 year	Ce cookie garantit le bon fonctionnement de notre notification de cookies. Vos préférences sont enregistrées dans un cookie afin que nous puissions connaître votre prochaine visite.
wordpress_*	30 days	Wordpress utilise plusieurs cookies pour que le site web fonctionne correctement, par exemple pour permettre à l'équipe éditoriale de se connecter.
wp-*	1 day	Wordpress utilise plusieurs cookies pour que le site web fonctionne correctement, par exemple pour permettre à l'équipe éditoriale de se connecter.

Cookie	Duration	Description
_li_id.*	2 years	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
_li_ses.*	30 minutes	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
itdaily_views	1 hour	Ce cookie est utilisé par notre propre système pour suivre les utilisateurs sur le site web.

Cookie	Duration	Description
_li_id.*	2 years	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
_li_ses.*	30 minutes	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
VISITOR_INFO1_LIVE	5 months 27 days	Un cookie défini par YouTube pour mesurer la bande passante qui détermine si l'utilisateur obtient la nouvelle ou l'ancienne interface du lecteur.
YSC	session	Le cookie YSC est défini par YouTube et est utilisé pour suivre les vues des vidéos intégrées dans les pages YouTube.

Du libre-service à l’architecture dynamique, pour une exploitation productive des données

Nettoyer les données vs tout rassembler tel quel

Les données en tant que produit et libre-service

Avec ou sans cloud ?

Stables et dynamiques

actualités liées

newsletter