Sora d’OpenAI : le nouveau modèle d’IA générative vidéo (text-to-video) qui vient compléter les outils ChatGPT et Dall-E

Sora l'IA qui génère des vidéos de mammouths

OpenAI dévoile son dernier bijou technologique, Sora, un modèle de texte-à-vidéo révolutionnaire qui promet de redéfinir les normes de la génération vidéo automatisée. Enseignant à l’IA la compréhension et la simulation du monde physique en mouvement, Sora ouvre des perspectives fascinantes pour résoudre des problèmes nécessitant une interaction du monde réel.

Sora : une avancée majeure dans la génération vidéo assistée par l’IA

Sora, le nouveau modèle de texte-à-vidéo d’OpenAI, a la capacité de créer des vidéos d’une minute tout en maintenant une qualité visuelle impressionnante, répondant à la requête de l’utilisateur. Que ce soit une élégante femme déambulant dans les rues de Tokyo ou des mammouths laineux déambulant dans une prairie enneigée, Sora semble à l’aise dans la création de scènes complexes.

Ouvert aux utilisateurs pour évaluer les domaines critiques, Sora s’adresse également aux artistes visuels, designers et cinéastes pour recueillir des commentaires et perfectionner ses fonctionnalités au service des professionnels créatifs.

Des exemples de vidéos générées par l’IA Sora

Voici quelques vidéos

Le prompt : Plusieurs mammouths laineux géants s’approchent en marchant dans une prairie enneigée, leur longue fourrure laineuse souffle légèrement dans le vent pendant qu’ils marchent, des arbres couverts de neige et des montagnes enneigées spectaculaires au loin, la lumière du milieu de l’après-midi avec des nuages vaporeux et un soleil haut dans le lointain crée une lueur chaleureuse, la vue en contre-plongée est stupéfiante, capturant le grand mammifère à fourrure avec une belle photographie, la profondeur de champ.
Le prompt : Bande-annonce d’un film mettant en scène les aventures d’un homme de l’espace de 30 ans portant un casque de moto en laine rouge, ciel bleu, désert de sel, style cinématographique, filmé en 35 mm, couleurs vives.
Prompt : Cette scène animée présente un gros plan d’un petit monstre pelucheux agenouillé à côté d’une bougie rouge en train de fondre. Le style artistique est 3D et réaliste, avec un accent mis sur l’éclairage et la texture. L’ambiance de la peinture est à l’émerveillement et à la curiosité, le monstre regardant la flamme avec de grands yeux et la bouche ouverte. Sa pose et son expression traduisent un sentiment d’innocence et d’espièglerie, comme s’il explorait le monde qui l’entoure pour la première fois. L’utilisation de couleurs chaudes et d’un éclairage dramatique renforce l’atmosphère chaleureuse de l’image.

Capacités remarquables mais également des faiblesses identifiées

Sora peut générer des scènes complexes avec plusieurs personnages, des mouvements spécifiques et des détails précis du sujet et de l’arrière-plan. Doté d’une compréhension approfondie du langage, le modèle interprète avec précision les requêtes et crée des personnages captivants exprimant des émotions vibrantes.

Bien que puissant, le modèle présente certaines faiblesses, notamment des difficultés à simuler correctement la physique d’une scène complexe et une compréhension parfois floue des causes et effets spécifiques.

Une premiere mouture qu’OpenAI souhaite améliorer

OpenAI partage ses progrès de recherche avec Sora pour obtenir des retours externes. Le modèle est capable de générer des vidéos à partir d’instructions textuelles, animant même des images existantes ou prolongeant des vidéos. Cependant, des défis subsistent, comme la création de mouvements parfois physiquement implausibles.

À l’ère des deepfakes, de la désinformation en ligne, et OpenAI met en place des mesures de sécurité élevées, collaborant avec des experts en sécurité pour tester adversairement le modèle. Des outils de détection de contenu trompeur sont également en développement, renforçant la confiance dans l’utilisation de Sora.

OpenAI souhaite rassurer tout le monde de l’impact de son IA vidéo

Le modèle de diffusion Sora génère des vidéos en éliminant progressivement le bruit. Utilisant une architecture de transformateur, similaire aux modèles GPT, Sora offre des performances d’échelle supérieures. Les vidéos et images sont représentées comme des collections d’unités de données, permettant une formation sur une gamme étendue de données visuelles.

Avant de rendre Sora accessible dans les produits d’OpenAI, des étapes de sécurité importantes seront franchies. Des outils de détection de contenu trompeur et des métadonnées C2PA seront intégrés, et une collaboration étroite avec les parties prenantes mondiales, y compris les décideurs, éducateurs et artistes, sera maintenue.

Sora est le fruit des avancées dans les modèles DALL·E et GPT, et constitue une percée majeure dans les modèles capables de comprendre et simuler le monde réel.

Source : https://openai.com/sora

[Nouveau] 4 ebooks sur le digital marketing à télécharger gratuitement

Cet article vous a plu ? Recevez nos prochains articles par mail

Inscrivez-vous à notre newsletter, et vous recevrez un mail tous les jeudis avec les derniers articles d’experts publiés.

D’autres articles sur le même thème :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *