ETUDE

En bref

En bref

  • Imaginez que vous puissiez partager des données avec des partenaires, des administrations et d’autres organisations pour booster l’innovation sans enfreindre les lois sur la protection de la vie privée.
  • Que vous puissiez mieux exploiter vos données client, jalousement gardées, tout en maintenant les normes les plus strictes en matière de confidentialité et de sécurité.
  • Que votre entreprise puisse générer de nouvelles sources de revenus grâce à la monétisation de vos données, sans compromettre les informations personnelles ou confidentielles.
  • C’est la promesse des données synthétiques, qui sont sur le point de révolutionner la façon dont nous produisons et consommons les données.


Aujourd’hui, ce sont les données qui font tourner le monde. En effet, elles sont devenues indispensables à pratiquement toutes nos activités. Et elles sont d’autant plus puissantes et essentielles qu’elles sont partagées. Imaginez la rapidité avec laquelle nous pourrions soigner des maladies, éviter le gaspillage, ou encore l’efficience que pourraient atteindre les écosystèmes si nous pouvions échanger librement les données. Un tel partage est aujourd’hui impossible, car nous ne pouvons exploiter que nos propres données, qui sont strictement protégées, et pour de bonnes raisons.

Les données synthétiques, c'est quoi ?

Pour résumer, les données synthétiques sont des données générées artificiellement par un algorithme d’IA qu’on a entraîné sur un ensemble de données réelles. L’objectif est de reproduire les propriétés et les modèles statistiques d'un ensemble de données existantes, grâce à une modélisation de leur distribution probabilistique et à un échantillonnage. L’algorithme génère de nouvelles données qui présentent les mêmes caractéristiques que les données d’origine – et qui donnent donc la même réponse – mais surtout, il est impossible de reconstruire les données d’origine, que ce soit à partir de l’algorithme ou des données synthétiques qu’il a créées. Résultat : le jeu de données synthétiques présente la même capacité prédictive que les données d’origine, mais s’affranchit des problèmes de confidentialité qui limitent l’utilisation de la plupart des données d’origine.

Prenons un exemple :  imaginons que vous vouliez générer des données synthétiques sur les athlètes, notamment sur leur taille et sur leur vitesse. Nous pouvons représenter la relation entre ces deux variables par une simple fonction linéaire. Si nous prenons cette fonction et que nous voulons créer des données synthétiques, nous pouvons facilement demander à une machine de générer de manière aléatoire un ensemble de points satisfaisant à l’équation. C’est notre ensemble de données synthétiques. L’équation est identique, mais les valeurs sont différentes.

Imaginons maintenant que vous vous intéressiez non seulement à la taille et à la vitesse des athlètes, mais aussi à leur tension artérielle, à leur saturation en oxygène, etc. Dans ce cas, les données sont bien plus complexes et leur représentation nécessite des équations non linéaires plus élaborées. Nous avons besoin de la puissance de l’IA, pour nous aider à en dégager le « modèle ». En suivant la même logique que dans notre premier exemple, nous pouvons maintenant nous servir de cette IA entraînée pour générer des points de données qui se rapprochent de ce nouveau et plus complexe modèle et ainsi créer notre jeu de données de synthèse.

Les données synthétiques sont une véritable aubaine pour les chercheurs, comme le montre la collaboration des National Institutes of Health (NIH) aux États-Unis avec Syntegra, une start-up spécialisée dans les services IT. Syntegra exploite son moteur de données synthétiques pour générer et valider une réplique non identifiable de la base de données NIH contenant les enregistrements de patients ayant consulté pour suspicion de COVID-19. Soit plus de 2,7 millions de personnes testées et plus de 413 000 patients positifs. Le jeu de données synthétiques, qui reproduit exactement les propriétés statistiques celui des données d’origine sans être relié aux informations initiales, peut être partagé et exploité par des chercheurs du monde entier. Ces derniers peuvent ainsi approfondir leurs connaissances de la maladie et accélérer la mise au point de traitements et de vaccins.

Si la pandémie nous a permis d’entrevoir des cas d’utilisation des données synthétiques pour la recherche médicale, cette technologie pourrait s’étendre à bien d’autres secteurs. Par exemple, dans le secteur des services financiers, où les restrictions en matière d’utilisation des données et de protection de la vie privée des clients sont particulièrement contraignantes, les entreprises commencent à exploiter les données synthétiques. Le but est d'identifier et d’éliminer les biais qui peuvent influencer leur façon de traiter les clients – sans enfreindre les réglementations régissant la confidentialité des données. De leur côté, les professionnels du Retail prennent conscience qu’ils pourraient générer de nouvelles sources de revenus grâce à la vente des copies synthétiques des comportements d’achat de leurs clients. Des données inestimables pour certaines entreprises, telles que les fabricants de biens de consommation. Tout cela, sans compromettre les informations personnelles de leurs clients.

Écoutez l’épisode 9 de la série de podcasts « AI Leaders », où Ray O'Brien, entrepreneur indépendant et membre de comité consultatif dans le secteur financier, nous parle de tout ce qui touche aux données :

Les avantages : sécurité, rapidité et scalabilité

Bien qu’elles n’en soient aujourd’hui qu’à leurs premiers balbutiements, les données synthétiques sont bien parties pour enregistrer une croissance fulgurante dans les années à venir. Et pour cause : pour les entreprises qui exploitent l’IA, elles sont synonymes de sécurité, de rapidité et de traitement de volumes colossaux de données.

Sécurité : protection des informations confidentielles

L’avantage des données synthétiques est évident : il élimine tout risque d'exposer des données critiques ou de compromettre la confidentialité et la sécurité des entreprises et de leurs clients. Des méthodes telles que le chiffrement, l’anonymisation ou des techniques avancées de protection de la vie privée (chiffrement homomorphe ou calcul multipartite sécurisé, par exemple) assurent la protection des données d’origine et des informations qu’elles contiennent, qui pourraient permettre de remonter jusqu’à une personne en particulier. Tant que les données d’origine sont présentes, il existe toujours un risque qu’elles soient compromises ou exposées d’une manière ou d’une autre. Mais les données synthétiques ne se contentent pas de masquer ou de modifier les données d’origine : elles les remplacent.

L’avantage des données synthétiques est évident : il élimine tout risque d'exposer des données critiques ou de compromettre la confidentialité et la sécurité des entreprises et de leurs clients.

C’est là l’un des grands avantages des données synthétiques dans l’exemple de la COVID-19 cité plus haut – et un avantage décisif pour le secteur de la santé d’une manière générale. Imaginez que nous ayons regroupé l’ensemble des données dont nous disposons collectivement sur l’ensemble des personnes qui ont contracté la maladie dans le monde entier et que nous puissions les partager avec quiconque souhaite les exploiter. Nous serions probablement en meilleure posture, mais d’un point de vue juridique, cela est aujourd’hui impossible. L’initiative des Instituts américains de la santé (NIH) démontre comment les données synthétiques permettent de surmonter l’obstacle de la confidentialité.

Rapidité : accélération de l’accès aux données

Autre enjeu de taille pour les entreprises : accéder rapidement à leurs données, afin de les convertir en valeur. Les données synthétiques mettent fin aux obstacles que représentent la protection de la vie privée et les protocoles de sécurité, qui rendent souvent l’obtention des données et leur utilisation aussi difficiles que chronophages.

Prenons l’exemple d’une institution financière. L’entreprise disposait d’une base de données inestimables, qui pouvait aider les décisionnaires à résoudre des problèmes métier. Pourtant, les données faisaient l’objet d’une protection et d’un contrôle si stricts, qu’y accéder relevait du parcours du combattant – même si elles étaient destinées à ne jamais sortir de l’entreprise. Il est ainsi arrivé à l’équipe d’analystes d’attendre six mois pour accéder à un petit volume de données, qu’elle devait au demeurant très rapidement exploiter. Et il lui fallut patienter six mois de plus avant d’accéder à des données mises à jour. Pour contourner cet obstacle, l’entreprise a donc créé des données synthétiques à partir de ses données d’origine. L’équipe peut maintenant mettre à jour et modéliser ses données sans interruption, ce qui lui permet d’extraire en continu de précieuses informations sur la façon d’améliorer les performances de l’entreprise.

Les données synthétiques mettent fin aux obstacles que représentent la protection de la vie privée et les protocoles de sécurité, rendant souvent l’obtention des données et leur utilisation aussi difficiles que chronophages.

Mais ce n’est pas tout : avec les données synthétiques, les entreprises peuvent rapidement entraîner des modèles de Machine Learning (ML) sur de grands jeux de données, afin d'accélérer les phases de test et le déploiement de leur solution d’IA. Cela leur permet de résoudre un véritable problème : celui d'avoir suffisamment de données pour entraîner leurs modèles. De plus, lorsqu’ils peuvent accéder à de grands volumes de données synthétiques, les ingénieurs ML et les data scientists sont plus confiants dans les résultats qu’ils obtiennent aux différentes étapes de développement du modèle. Résultat : cela se traduit par une accélération de la mise sur le marché de nouveaux produits et services, et permet au final de générer plus rapidement de la valeur.

Scalabilité : résolution d'enjeux plus importants et plus variés

La scalabilité est une résultante de la sécurité et de la rapidité. Un accès sécurisé et accéléré aux données permet d’analyser de plus grands volumes de données et, ainsi de résoudre une plus grande diversité de problèmes. Un argument de taille pour les grandes entreprises, dont les efforts de modélisation actuels sont assez restreints, car se limitant aux seules données qui leur appartiennent. Elles peuvent bien sûr acheter des données tierces sous leur forme d’origine, mais à un prix prohibitif (et avec les problèmes de confidentialité associés). Grâce aux jeux de données de synthèse fournis par des tiers, les entreprises peuvent compléter leurs propres données, et ce, beaucoup plus facilement et à moindre coût. Elles peuvent ainsi en savoir plus sur le problème qu’elles tentent de résoudre et obtenir des réponses plus précises – sans se soucier de compromettre les données de quiconque.

La scalabilité est une résultante de la sécurité et de la rapidité. Un accès sécurisé et accéléré aux données permet d’analyser de plus grands volumes de données et, ainsi de résoudre une plus grande diversité de problèmes.

Prenons un exemple. Les banques sont soumises d'elles-même et par les organismes de régulation à identifier et à lutter contre la fraude. Et chaque banque y travaille de son côté indépendamment des autres, y consacrant des ressources considérables, d’une part, parce que c’est ce qu’exigent les organismes de régulation, et d’autre part, parce que la banque est seule habilitée à passer ses données au peigne fin pour y rechercher des activités suspectes. Si les banques se servaient de données synthétiques, elles pourraient partager les informations relatives à leurs investigations et à leurs analyses. En mettant en commun leurs jeux de données de synthèse avec leurs pairs du secteur bancaire, elles pourraient avoir une vue à 360° sur l’ensemble des personnes interagissant avec des banques dans un pays donné, ce qui permettrait de rationaliser et d’accélérer le processus de détection des fraudes, et au final, d’en épingler davantage avec moins de ressources.

Pourquoi l’utilisation des données synthétiques n’est-elle pas plus répandue ?

Les avantages des données synthétiques sont considérables et incontestables. Toutefois, pour en profiter, il ne suffit pas de connecter un outil d’IA et d’analyser des ensembles de données. Générer des données synthétiques de manière appropriée nécessite des connaissances poussées en IA, des compétences spécialisées, de même qu’un cadre élaboré, permettant à l’entreprise de créer ce qui était prévu.

Ce point est essentiel. L’équipe en charge du projet doit pouvoir démontrer à l’entreprise (et, le cas échéant, aux organismes de régulation ou aux clients) que les données artificielles créées reflètent fidèlement les données d’origine – mais qu’elles ne peuvent d’aucune façon y être associées. Et ce n’est pas du tout une mince affaire. Si elles ne correspondent pas, d’importantes tendances présentes dans les données d’origine risquent de manquer. Les projets de modélisation ultérieurs risquant alors d’occulter d’importantes opportunités potentielles, ou pire, de générer des imprécisions.

Autre difficulté : celle du biais, qui peut facilement se glisser dans les modèles d’IA entraînés sur des jeux de données contenant des biais humains historiques intrinsèques. Ainsi, si une entreprise crée un jeu de données qui se contente de copier l’original, les nouvelles données contiendront tous les biais de ce dernier. Il convient donc d’apporter des ajustements complexes aux modèles d’IA, de manière à ce qu’ils tiennent compte du biais et génèrent un jeu de données plus juste et plus représentatif. Ce n’est pas simple, mais c’est possible.

Générer des données synthétiques de manière appropriée nécessite des connaissances poussées en IA, des compétences spécialisées, de même qu’un cadre élaboré, permettant à l’entreprise de créer ce qui était prévu.

Les données synthétiques peuvent également servir à générer des jeux de données équitables. Lorsqu’on utilise cet indicateur comme contrainte et qu’on l’ajoute à un modèle d’optimisation, le nouvel ensemble de données ne se contentera pas de refléter l’original : il le fera de manière à respecter cette définition précise de l’équité. Résultat : ce nouveau jeu de données équitable peut servir à entraîner un modèle sans nécessiter de stratégies d’atténuation de biais telles que l’équité algorithmique, pouvant conduire à des compromis sur la précision. L’entreprise autrichienne MOSTLY AI, par exemple, a démontré l’efficacité des données synthétiques équitables sur un jeu de données exploité par la société COMPAS (logiciel d’aide à la décision utilisé dans les systèmes judiciaires de certains États américains, afin d’estimer le risque de récidive d’un accusé), ledit jeu de données ayant servi à générer des résultats algorithmiques reflétant une discrimination raciale. Avec son approche, MOSTLY AI a réduit l’écart entre les résultats élevés que COMPAS fournit pour les Afro-Américains (59% de risque de récidive) et ceux qu’il fournit pour les Blancs (35%) – l’écart n’étant plus que de 1% avec « des compromis minimes sur la précision prédictive ».

Les entreprises doivent donc veiller à la fiabilité de la méthode qu’elles emploient pour générer des données synthétiques. Mais elles doivent aussi, dans leur grande majorité, surmonter la résistance culturelle qu’engendre souvent le concept. « Cela ne fonctionnera pas dans notre entreprise ». « Je n’ai pas confiance, cela n’a pas l’air sûr ». « Les organismes de régulation ne suivront jamais ». Nous avons été confrontés à ce type de réactions dans une société de services financiers nord américaine avec laquelle nous avons collaboré. Lorsque nous avons abordé le sujet pour la première fois avec certains responsables de l’entreprise, nous avons dû entreprendre un travail d’information sur le fonctionnement des données synthétiques – aussi bien avec la direction, qu’avec l’équipe juridique et l’équipe en charge de la gestion des risques. Mais maintenant qu’ils ont appréhendé le sujet, ils vont de l'avant.

Les étapes suivantes : éducation, objectif et compétences

Les entreprises qui veulent générer des données synthétiques et en tirer les bénéfices doivent garder trois points essentiels à l’esprit :

Vers une économie des données synthétiques ?

Dans l’état actuel des choses, on ne peut pas demander aux données de résoudre toutes sortes de problèmes. Mais si les institutions, les universités, les gouvernements et les entreprises libéraient leurs données – sous forme synthétique – cela ouvrirait de nouvelles opportunités. Cela pourrait donner naissance à une économie des données synthétiques florissante, dans laquelle les différents intervenants génèreraient, achèteraient et vendraient des données – ou les donneraient dans certains cas pour une bonne cause. Le tout, sans plus se soucier de compromettre les données personnelles ou confidentielles des utilisateurs ou des entreprises. Du fait de leur plus grande disponibilité, les données synthétiques permettront aussi une mise en commun des apprentissages, et donc la création de systèmes intelligents que les entreprises pourront entraîner sur des jeux de données partagés par des tiers, avec, à la clé, une démocratisation des données, dans le respect de la confidentialité et de la sécurité.

Le potentiel des données synthétiques est énorme et ce dans tous les secteurs. Toutefois, elles sont encore cantonnées à la pointe de la data science. Il ne fait aucun doute que les entreprises qui trouveront le moyen de les générer et de les exploiter efficacement seront avantagées.

Fernando Lucini

Global Lead Data Science & ML Engineering – Applied Intelligence

POUR ALLER PLUS LOIN

Accélérer l'adoption de l'IA
L’IA responsable : de la théorie à la pratique

NEWSLETTER
Abonnez-vous à nos dernières publications Abonnez-vous à nos dernières publications