Pour nourrir son intelligence artificielle « datavore », OpenAI, sous la direction de Sam Altman, continue d’étudier de nouvelles pistes pour enrichir ses modèles de langage. Selon des rapports récents, la société aurait massivement exploité le contenu de YouTube dans le cadre de l’entraînement de son IA, une révélation qui soulève des questions sur les pratiques de collecte de données dans le domaine de l’intelligence artificielle.
OpenAI et l’ingestion de données massives
Les avancées dans le domaine de l’intelligence artificielle reposent largement sur l’ingestion de vastes quantités de données. On l’a vu dernièrement dans le cadre du partenariat entre Le Monde et OpenAI. En effet, les modèles de langage comme ChatGPT ont été vantés pour leur capacité à générer des contenus de qualité, fruit de l’assimilation de quantités phénoménales de données au fil des années. Cependant, l’accès à de nouvelles données de qualité devient un vrai frein, poussant les entreprises comme OpenAI à explorer des sources alternatives.
OpenAI s’est tourné vers YouTube… qui réagit
Le New York Times a récemment rapporté qu’OpenAI aurait acquis près d’un million d’heures de vidéos sur YouTube pour entraîner son dernier modèle de langage, GPT-4. Cette démarche s’inscrit dans une tendance à rechercher des données inédites, face à l’épuisement des ressources traditionnelles. L’utilisation d’outils comme Whisper, capable de transcrire l’audio et la vidéo en texte, aurait permis à OpenAI de convertir ces contenus en un format exploitable pour son IA.
Les révélations sur l’utilisation intensive de vidéos YouTube par OpenAI ont suscité des interrogations quant à la légalité et à l’éthique de telles pratiques. Les géants de la technologie, confrontés à une pénurie de données de qualité, pourraient être tentés de contourner les restrictions d’accès aux données pour alimenter leurs modèles d’IA.
Google, la société mère de YouTube, a réagi aux allégations en affirmant que l’extraction non autorisée de contenu était contraire à leurs politiques. Un porte-parole de Google a souligné que les fichiers robots.txt et les conditions d’utilisation interdisaient explicitement le « scraping » ou le téléchargement non autorisé de contenu YouTube. Ces déclarations laissent entrevoir un possible conflit juridique à venir entre OpenAI et Google. En partant de ce principe, de nombreux supports de contenu, comme des émissions de télévision, des podcasts, des ouvrages… pourraient servir de sources pour nourrir les modèles d’apprentissages automatiques.
Alors que les avancées technologiques continuent d’être alimentées par l’exploitation des données, les débats sur la collecte, l’utilisation et la régulation des données dans le domaine de l’IA restent d’actualité.