Getting your Trinity Audio player ready...
|
C’est connu. Les IA générative notamment ont été entrainées avec d’énormes quantités de données existantes produites par des humains. Cependant, l’industrie a atteint un point clé. Selon Ilya Sudzvir, un ancien chercheur d’OpenAI qui a fondé sa propre startup dont il est le directeur, l’industrie de l’IA connaît actuellement un pic de données. Donc, les connaissances humaines disponibles pour entrainées les modèles d’IA sont pleinement exploitées. La reserve minière est épuisée. Ce constat est partagé par le fondateur de XAI qui, lors d’une interview sur x.com le 8 janvier 2025 a déclaré : « Nous avons épuisé la somme cumulative des connaissances humaines d’ici 2023. »
Cependant, les promoteurs de modèles IA ne veulent pas s’arrêter là. Ils souhaiteraient utilisées des données synthétiques qui sont elles-mêmes des données générées par l’IA. Autrement dit, l’IA va générer des données pour continuer à entrainer l’IA.
Selon le cabinet Gartner, 60 % des données utilisées par l’IA en 2024 seront synthétiques. Les données synthétiques offrent un avantage significatif en termes de coûts, comme en témoigne le modèle Palmira X004 de la startup Writer, qui a été formé exclusivement sur des données synthétiques et a entraîné un coût de 700 000 dollars, contre 4,6 millions de dollars pour un modèle comparable d’OpenAI.
Cependant, l’utilisation de données synthétiques comporte des risques inhérents. Les modèles d’IA entraînés sur des données synthétiques peuvent connaître un phénomène d’effondrement, où la qualité des modèles se détériore à mesure que les données générées polluent les ensembles d’entraînement. De plus, ces données peuvent manquer de nuances, ce qui peut renforcer les biais algorithmiques existants.
La Rédaction