Quels sont les risques de nourrir l’IA avec des données produites par l’IA ?

Union européenne et États-Unis sur l'intelligence artificielle

Imaginez un monde où les systèmes d’intelligence artificielle, au lieu de devenir plus intelligents, sombrent dans l’absurde. Ce scénario inquiétant devient réalité lorsque l’IA est formée avec ses propres créations. C’est déjà le cas aujourd’hui puisque de plus en plus de contenus sont produits avec l’assistance de l’IA, et finissent absorbés dans les data-centers utilisés pour l’apprentissage des différentes IA du marché (Gemini, Claude, ChatGPT..).

Pourtant, ce qui a fait le succès du lancement d’un outil comme ChatGPT, c’est sa capacité à produire des réponses de qualité proche du raisonnement humain. Pour atteindre ce niveau de connaissance, OpenAI a principalement nourri son IA de contenus produits par des humains. Or, ce contenu a un coût, il est difficile d’accès, et il n’est pas suffisant pour nourrir suffisamment les systèmes d’apprentissage et autres LLM.

Les modèles d’IA et augmentation d’incohérences

Lorsqu’un modèle d’intelligence artificielle est constamment alimenté par des données générées par d’autres IA, il commence à produire des résultats de plus en plus incohérents. Plusieurs études scientifiques soulignent ce phénomène. En utilisant des données synthétiques pour entraîner les modèles d’IA, ces systèmes finissent par générer des réponses qui manquent de pertinence et de sens.

On l’a vu dans l’actualité ces derniers mois, les outils d’intelligence artificielle générative comme ChatGPT nécessitent d’énormes quantités de données pour fonctionner correctement, ce qui explique les multiples partenariats menés par OpenAI avec de grands médias (Time Magazine, Le Monde, Financial Times…). Cependant, le web, source principale de ces données, est de plus en plus saturé de contenus créés par des IA. Cette boucle à la « Inception », où l’IA se nourrit de ses propres créations, mène à une dégradation progressive de la qualité des réponses produites.

IA Google

La comparaison avec la maladie de la vache folle

Les chercheurs des universités américaines Rice et Stanford ont observé des phénomènes similaires avec des générateurs d’images comme Midjourney, Dall-E et Stable Diffusion. En incorporant davantage de données artificielles dans leurs modèles, ils ont noté une augmentation des incohérences et une banalisation des images produites. Ils comparent ce processus à l’épidémie de la vache folle, causée par l’alimentation des bovins avec des farines animales contaminées.

Tout comme la qualité de la viande avait été compromise, la qualité des données utilisées pour former les IA se détériore lorsqu’elles sont composées de contenus créés par d’autres IA. Cela soulève des inquiétudes quant à l’avenir des systèmes d’intelligence artificielle et à la qualité des informations disponibles en ligne.

Utiliser des données synthétiques pour réduire les coûts mais baisser en qualité

Malgré ces risques, de nombreuses entreprises continuent d’utiliser des données synthétiques pour entraîner leurs modèles. La raison principale est leur abondance et leur coût réduit par rapport aux données humaines. Cependant, Richard Baraniuk de l’université Rice met en garde contre un potentiel « scénario catastrophe » où l’utilisation excessive de ces données pourrait « empoisonner » la qualité et la diversité de l’Internet entier.

Ce phénomène pourrait plomber l’industrie de l’intelligence artificielle, en plein essor, et qui représente des milliards de dollars. La question qui demeure : à quel moment l’utilisation de données synthétiques devient-elle excessive et nuisible pour les modèles d’IA ?

Malgré ces avertissements, certains experts estiment que le problème est exagéré. Anton Lozhkov de Hugging Face affirme que l’entraînement sur plusieurs générations de données synthétiques ne se produit pas en pratique. Néanmoins, il reconnaît que l’état actuel du web, souvent qualifié de « poubelle », complique la tâche des chercheurs en IA, qui doivent fréquemment nettoyer les données utilisées.

En fin de compte, la problématique pour les chercheurs et les entreprises d’intelligence artificielle est de trouver un équilibre entre l’utilisation de données synthétiques et la préservation de la qualité et de la diversité des informations pour garantir des modèles d’IA fiables et performants. Dans un contexte où la compétition fait rage entre acteurs de l’IA, avec une volonté d’avoir la meilleure base de connaissance possible, il faudra donc veiller à ce que hyper-croissance, avec des coûts de plus en plus exorbitants, ne finisse pas par mener l’IA à sa perte.

Source : https://www.lefigaro.fr/secteur/high-tech/quand-l-intelligence-artificielle-se-nourrit-de-l-ia-l-absurde-guette-20240803

[Nouveau] 4 ebooks sur le digital marketing à télécharger gratuitement

Cet article vous a plu ? Recevez nos prochains articles par mail

Inscrivez-vous à notre newsletter, et vous recevrez un mail tous les jeudis avec les derniers articles d’experts publiés.

D’autres articles sur le même thème :

1 Comments

  1. Bonjour,
    Je suis ravi de lire des articles intéressants et innovants sur votre site.
    Je suis enseignant d’allemand en Côte d’Ivoire.
    J’aimerais savoir si l’IA va faire son entrée dans l’enseignement.

    Merci

    ERIC

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *