OpenAI vient de dévoiler une mise à jour majeure de son modèle d’IA générative, GPT-4 Turbo, qui promet de faire mieux que ses concurrents directs comme Claude 3 Opus et Gemini Pro 1.5. Elle met aussi en lumière GPT-4 Turbo with Vision, qui promet de pouvoir intégrer des contenus visuels dans ses prompts.
Les performances de GPT-4 Turbo font mieux que les concurrents
L’itération améliorée de GPT-4 Turbo, annoncée lors de la conférence des développeurs d’OpenAI en novembre 2023 dernier, met encore une fois l’accent sur l’amélioration de ses performances. Selon les données fournies par OpenAI, cette version surpasse ses prédécesseurs sur plusieurs aspects stratégiques, notamment dans les domaines de l’écriture, des mathématiques, du raisonnement logique et du codage.
Les évaluations comparatives montrent que sur des tests tels que le benchmark MATH, le test MMLU et le test HumanEval, GPT-4 Turbo affiche des scores supérieurs à ceux de Claude 3 Opus et de Gemini Pro 1.5.
Des réponses plus concises dans ChatGPT
Une des caractéristiques mises en avant par OpenAI est la capacité de GPT-4 Turbo à fournir des réponses plus concises et directes, notamment dans l’environnement de ChatGPT. Cette version améliorée offre également une fenêtre contextuelle plus étendue, permettant une meilleure prise en compte du contexte avec jusqu’à 128 000 tokens.
De plus, cette nouvelle itération de GPT-4 a été entraînée sur des données plus récentes, allant jusqu’à décembre 2023, ce qui lui confère une pertinence plus élevée par rapport à ses prédécesseurs.
OpenAI démocratise l’accès à GPT-4 Turbo
OpenAI annonce également une démocratisation de l’accès à GPT-4 Turbo en rendant son utilisation financièrement plus accessible. Le modèle est disponible à des prix réduits, jusqu’à trois fois moins cher pour les jetons d’entrée, et deux fois moins cher pour les jetons de sortie, par rapport à GPT-4. Cette stratégie vise à élargir l’adoption de GPT-4 Turbo dans les différents plans d’abonnement de ChatGPT ainsi que via son API.
OpenAI met l’accent sur la fusion entre langage et vision
En parallèle, OpenAI innove en intégrant des capacités de vision à son modèle de langage avec « GPT-4 Turbo with Vision ». Cette avancée permet au modèle d’interagir avec des images et de répondre à des questions basées sur celles-ci. Cette intégration marque une évolution significative dans la capacité des LLM à comprendre et traiter les informations visuelles, élargissant ainsi considérablement leurs domaines d’application potentiels.
Cependant, OpenAI reconnaît certaines limites de cette fonctionnalité, notamment en ce qui concerne la précision des réponses aux questions détaillées sur le contenu des images.
La concurrence s’intensifie dans le domaine de la vision
OpenAI n’est pas la seule entreprise à étudier cette convergence entre langage et vision. La start-up xAI derrière Grok, dirigée par Elon Musk, a également annoncé le lancement de son modèle multimodal Grok-1.5V, offrant des performances similaires à GPT-4V. Ces avancées marquent une étape significative dans le développement des capacités des modèles de langage, ouvrant la voie à de nouvelles applications et à des interactions plus riches entre l’homme et la machine.