OpenAI dévoile son dernier bijou technologique, Sora, un modèle de texte-à-vidéo révolutionnaire qui promet de redéfinir les normes de la génération vidéo automatisée. Enseignant à l’IA la compréhension et la simulation du monde physique en mouvement, Sora ouvre des perspectives fascinantes pour résoudre des problèmes nécessitant une interaction du monde réel.
Sora : une avancée majeure dans la génération vidéo assistée par l’IA
Sora, le nouveau modèle de texte-à-vidéo d’OpenAI, a la capacité de créer des vidéos d’une minute tout en maintenant une qualité visuelle impressionnante, répondant à la requête de l’utilisateur. Que ce soit une élégante femme déambulant dans les rues de Tokyo ou des mammouths laineux déambulant dans une prairie enneigée, Sora semble à l’aise dans la création de scènes complexes.
Ouvert aux utilisateurs pour évaluer les domaines critiques, Sora s’adresse également aux artistes visuels, designers et cinéastes pour recueillir des commentaires et perfectionner ses fonctionnalités au service des professionnels créatifs.
Des exemples de vidéos générées par l’IA Sora
Voici quelques vidéos
Capacités remarquables mais également des faiblesses identifiées
Sora peut générer des scènes complexes avec plusieurs personnages, des mouvements spécifiques et des détails précis du sujet et de l’arrière-plan. Doté d’une compréhension approfondie du langage, le modèle interprète avec précision les requêtes et crée des personnages captivants exprimant des émotions vibrantes.
Bien que puissant, le modèle présente certaines faiblesses, notamment des difficultés à simuler correctement la physique d’une scène complexe et une compréhension parfois floue des causes et effets spécifiques.
Une premiere mouture qu’OpenAI souhaite améliorer
OpenAI partage ses progrès de recherche avec Sora pour obtenir des retours externes. Le modèle est capable de générer des vidéos à partir d’instructions textuelles, animant même des images existantes ou prolongeant des vidéos. Cependant, des défis subsistent, comme la création de mouvements parfois physiquement implausibles.
À l’ère des deepfakes, de la désinformation en ligne, et OpenAI met en place des mesures de sécurité élevées, collaborant avec des experts en sécurité pour tester adversairement le modèle. Des outils de détection de contenu trompeur sont également en développement, renforçant la confiance dans l’utilisation de Sora.
OpenAI souhaite rassurer tout le monde de l’impact de son IA vidéo
Le modèle de diffusion Sora génère des vidéos en éliminant progressivement le bruit. Utilisant une architecture de transformateur, similaire aux modèles GPT, Sora offre des performances d’échelle supérieures. Les vidéos et images sont représentées comme des collections d’unités de données, permettant une formation sur une gamme étendue de données visuelles.
Avant de rendre Sora accessible dans les produits d’OpenAI, des étapes de sécurité importantes seront franchies. Des outils de détection de contenu trompeur et des métadonnées C2PA seront intégrés, et une collaboration étroite avec les parties prenantes mondiales, y compris les décideurs, éducateurs et artistes, sera maintenue.
Sora est le fruit des avancées dans les modèles DALL·E et GPT, et constitue une percée majeure dans les modèles capables de comprendre et simuler le monde réel.
Source : https://openai.com/sora