Pour résumer, les données synthétiques sont des données générées artificiellement par un algorithme d’IA qu’on a entraîné sur un ensemble de données réelles. L’objectif est de reproduire les propriétés et les modèles statistiques d'un ensemble de données existantes, grâce à une modélisation de leur distribution probabilistique et à un échantillonnage. L’algorithme génère de nouvelles données qui présentent les mêmes caractéristiques que les données d’origine – et qui donnent donc la même réponse – mais surtout, il est impossible de reconstruire les données d’origine, que ce soit à partir de l’algorithme ou des données synthétiques qu’il a créées. Résultat : le jeu de données synthétiques présente la même capacité prédictive que les données d’origine, mais s’affranchit des problèmes de confidentialité qui limitent l’utilisation de la plupart des données d’origine.
Prenons un exemple : imaginons que vous vouliez générer des données synthétiques sur les athlètes, notamment sur leur taille et sur leur vitesse. Nous pouvons représenter la relation entre ces deux variables par une simple fonction linéaire. Si nous prenons cette fonction et que nous voulons créer des données synthétiques, nous pouvons facilement demander à une machine de générer de manière aléatoire un ensemble de points satisfaisant à l’équation. C’est notre ensemble de données synthétiques. L’équation est identique, mais les valeurs sont différentes.
Imaginons maintenant que vous vous intéressiez non seulement à la taille et à la vitesse des athlètes, mais aussi à leur tension artérielle, à leur saturation en oxygène, etc. Dans ce cas, les données sont bien plus complexes et leur représentation nécessite des équations non linéaires plus élaborées. Nous avons besoin de la puissance de l’IA, pour nous aider à en dégager le « modèle ». En suivant la même logique que dans notre premier exemple, nous pouvons maintenant nous servir de cette IA entraînée pour générer des points de données qui se rapprochent de ce nouveau et plus complexe modèle et ainsi créer notre jeu de données de synthèse.
Les données synthétiques sont une véritable aubaine pour les chercheurs, comme le montre la collaboration des National Institutes of Health (NIH) aux États-Unis avec Syntegra, une start-up spécialisée dans les services IT. Syntegra exploite son moteur de données synthétiques pour générer et valider une réplique non identifiable de la base de données NIH contenant les enregistrements de patients ayant consulté pour suspicion de COVID-19. Soit plus de 2,7 millions de personnes testées et plus de 413 000 patients positifs. Le jeu de données synthétiques, qui reproduit exactement les propriétés statistiques celui des données d’origine sans être relié aux informations initiales, peut être partagé et exploité par des chercheurs du monde entier. Ces derniers peuvent ainsi approfondir leurs connaissances de la maladie et accélérer la mise au point de traitements et de vaccins.
Si la pandémie nous a permis d’entrevoir des cas d’utilisation des données synthétiques pour la recherche médicale, cette technologie pourrait s’étendre à bien d’autres secteurs. Par exemple, dans le secteur des services financiers, où les restrictions en matière d’utilisation des données et de protection de la vie privée des clients sont particulièrement contraignantes, les entreprises commencent à exploiter les données synthétiques. Le but est d'identifier et d’éliminer les biais qui peuvent influencer leur façon de traiter les clients – sans enfreindre les réglementations régissant la confidentialité des données. De leur côté, les professionnels du Retail prennent conscience qu’ils pourraient générer de nouvelles sources de revenus grâce à la vente des copies synthétiques des comportements d’achat de leurs clients. Des données inestimables pour certaines entreprises, telles que les fabricants de biens de consommation. Tout cela, sans compromettre les informations personnelles de leurs clients.
Écoutez l’épisode 9 de la série de podcasts « AI Leaders », où Ray O'Brien, entrepreneur indépendant et membre de comité consultatif dans le secteur financier, nous parle de tout ce qui touche aux données :