Mise à jour du 11 décembre 2024 : Sora enfin disponible pour le grand public… aux États-Unis seulement
Après ce teasing datant de février 2024, mois durant lequel OpenAI avait annoncé son nouveau projet d’IA vidéo, l’attente était forte parmi les utilisateurs de ChatGPT. Et c’est finalement en ce mois de décembre 2024 qu’OpenAI a ouvert l’accès officiellement à son IA Sora, de façon limitée aux États-Unis le moment. Cette annonce a suscité une telle « hype » que Sam Altman a annoncé sur X (ex-Twitter) qu’un système de file d’attente a été mis en place, et que l’accès à l’outil est restreint au moment où nous écrivons ces lignes.
Pourquoi l’accès est limité aux US et non en Europe ?
La réglementation de l’Union européenne est très stricte quant à l’usage des données des citoyens européens, et de nombreux outils d’intelligence artificielle ne sont pas en conformité avec ces exigences. Par exemple, Sora a déjà été épinglé en Italie, qui a lancé une enquête pour comprendre comment les données personnelles des italiens étaient utilisées par OpenAI. Le lancement de Sora en Europe sera donc repoussé, et nous n’avons pas de date de disponibilité pour le moment.
Pour autant, de nombreux spécialistes de l’IA français ont déjà pu tester l’outil, en utilisant une connexion VPN simulant une géolocalisation aux États-Unis. À bon entendeur…
Le 16 février 2024 : Sora, une avancée majeure dans la génération vidéo assistée par l’IA
OpenAI dévoile son dernier bijou technologique, Sora, un modèle de texte-à-vidéo révolutionnaire qui promet de redéfinir les normes de la génération vidéo automatisée. Enseignant à l’IA la compréhension et la simulation du monde physique en mouvement, Sora ouvre des perspectives fascinantes pour résoudre des problèmes nécessitant une interaction du monde réel.
Sora, le nouveau modèle de texte-à-vidéo d’OpenAI, a la capacité de créer des vidéos d’une minute tout en maintenant une qualité visuelle impressionnante, répondant à la requête de l’utilisateur. Que ce soit une élégante femme déambulant dans les rues de Tokyo ou des mammouths laineux déambulant dans une prairie enneigée, Sora semble à l’aise dans la création de scènes complexes.
Ouvert aux utilisateurs pour évaluer les domaines critiques, Sora s’adresse également aux artistes visuels, designers et cinéastes pour recueillir des commentaires et perfectionner ses fonctionnalités au service des professionnels créatifs.
Des exemples de vidéos générées par l’IA Sora
Voici quelques vidéos
Capacités remarquables mais également des faiblesses identifiées
Sora peut générer des scènes complexes avec plusieurs personnages, des mouvements spécifiques et des détails précis du sujet et de l’arrière-plan. Doté d’une compréhension approfondie du langage, le modèle interprète avec précision les requêtes et crée des personnages captivants exprimant des émotions vibrantes.
Bien que puissant, le modèle présente certaines faiblesses, notamment des difficultés à simuler correctement la physique d’une scène complexe et une compréhension parfois floue des causes et effets spécifiques.
Une premiere mouture qu’OpenAI souhaite améliorer
OpenAI partage ses progrès de recherche avec Sora pour obtenir des retours externes. Le modèle est capable de générer des vidéos à partir d’instructions textuelles, animant même des images existantes ou prolongeant des vidéos. Cependant, des défis subsistent, comme la création de mouvements parfois physiquement implausibles.
À l’ère des deepfakes, de la désinformation en ligne, et OpenAI met en place des mesures de sécurité élevées, collaborant avec des experts en sécurité pour tester adversairement le modèle. Des outils de détection de contenu trompeur sont également en développement, renforçant la confiance dans l’utilisation de Sora.
OpenAI souhaite rassurer tout le monde de l’impact de son IA vidéo
Le modèle de diffusion Sora génère des vidéos en éliminant progressivement le bruit. Utilisant une architecture de transformateur, similaire aux modèles GPT, Sora offre des performances d’échelle supérieures. Les vidéos et images sont représentées comme des collections d’unités de données, permettant une formation sur une gamme étendue de données visuelles.
Avant de rendre Sora accessible dans les produits d’OpenAI, des étapes de sécurité importantes seront franchies. Des outils de détection de contenu trompeur et des métadonnées C2PA seront intégrés, et une collaboration étroite avec les parties prenantes mondiales, y compris les décideurs, éducateurs et artistes, sera maintenue.
Sora est le fruit des avancées dans les modèles DALL·E et GPT, et constitue une percée majeure dans les modèles capables de comprendre et simuler le monde réel.
Source : https://openai.com/sora