OpenAI lance GPT-4 Turbo, et permet des interactions avec des images grâce à « Vision »

ChatGPT Plus

OpenAI vient de dévoiler une mise à jour majeure de son modèle d’IA générative, GPT-4 Turbo, qui promet de faire mieux que ses concurrents directs comme Claude 3 Opus et Gemini Pro 1.5. Elle met aussi en lumière GPT-4 Turbo with Vision, qui promet de pouvoir intégrer des contenus visuels dans ses prompts.

Les performances de GPT-4 Turbo font mieux que les concurrents

L’itération améliorée de GPT-4 Turbo, annoncée lors de la conférence des développeurs d’OpenAI en novembre 2023 dernier, met encore une fois l’accent sur l’amélioration de ses performances. Selon les données fournies par OpenAI, cette version surpasse ses prédécesseurs sur plusieurs aspects stratégiques, notamment dans les domaines de l’écriture, des mathématiques, du raisonnement logique et du codage.

Les évaluations comparatives montrent que sur des tests tels que le benchmark MATH, le test MMLU et le test HumanEval, GPT-4 Turbo affiche des scores supérieurs à ceux de Claude 3 Opus et de Gemini Pro 1.5.

Des réponses plus concises dans ChatGPT

Une des caractéristiques mises en avant par OpenAI est la capacité de GPT-4 Turbo à fournir des réponses plus concises et directes, notamment dans l’environnement de ChatGPT. Cette version améliorée offre également une fenêtre contextuelle plus étendue, permettant une meilleure prise en compte du contexte avec jusqu’à 128 000 tokens.

De plus, cette nouvelle itération de GPT-4 a été entraînée sur des données plus récentes, allant jusqu’à décembre 2023, ce qui lui confère une pertinence plus élevée par rapport à ses prédécesseurs.

OpenAI démocratise l’accès à GPT-4 Turbo

OpenAI annonce également une démocratisation de l’accès à GPT-4 Turbo en rendant son utilisation financièrement plus accessible. Le modèle est disponible à des prix réduits, jusqu’à trois fois moins cher pour les jetons d’entrée, et deux fois moins cher pour les jetons de sortie, par rapport à GPT-4. Cette stratégie vise à élargir l’adoption de GPT-4 Turbo dans les différents plans d’abonnement de ChatGPT ainsi que via son API.

OpenAI met l’accent sur la fusion entre langage et vision

En parallèle, OpenAI innove en intégrant des capacités de vision à son modèle de langage avec « GPT-4 Turbo with Vision ». Cette avancée permet au modèle d’interagir avec des images et de répondre à des questions basées sur celles-ci. Cette intégration marque une évolution significative dans la capacité des LLM à comprendre et traiter les informations visuelles, élargissant ainsi considérablement leurs domaines d’application potentiels.

Cependant, OpenAI reconnaît certaines limites de cette fonctionnalité, notamment en ce qui concerne la précision des réponses aux questions détaillées sur le contenu des images.

La concurrence s’intensifie dans le domaine de la vision

OpenAI n’est pas la seule entreprise à étudier cette convergence entre langage et vision. La start-up xAI derrière Grok, dirigée par Elon Musk, a également annoncé le lancement de son modèle multimodal Grok-1.5V, offrant des performances similaires à GPT-4V. Ces avancées marquent une étape significative dans le développement des capacités des modèles de langage, ouvrant la voie à de nouvelles applications et à des interactions plus riches entre l’homme et la machine.

[Nouveau] 4 ebooks sur le digital marketing à télécharger gratuitement

Cet article vous a plu ? Recevez nos prochains articles par mail

Inscrivez-vous à notre newsletter, et vous recevrez un mail tous les jeudis avec les derniers articles d’experts publiés.

D’autres articles sur le même thème :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *