On vous en parlait hier : OpenAI a planifié un événement en ligne, intitulé Spring Updates, qui a eu donc lieu lundi 13 mai 2024, afin de présenter au monde entier ses dernières innovations en matière d’IA générative. Lors de l’événement, la société a dévoilé des avancées majeures avec la mise à jour de GPT-4 et notamment le lancement du nouveau modèle GPT-4o et un mode vocal qui risque de concurrencer les assistants vocaux de type Siri d’Apple et « OK Google ».
Une nouvelle version de son IA : GPT-4o
OpenAI a donc présenté GPT-4o comme son nouveau modèle phare, surpassant GPT-4 Turbo en termes de performance et de vitesse. Capable de comprendre et de traiter des pistes audio en détail, GPT-4o permet des interactions vocales sans latence notable, répondant en moins de 232 millisecondes. Ce modèle offre également une meilleure compréhension des langues non anglophones et améliore la précision en traitement d’images et d’audio.
Grâce à un nouveau tokenizer, GPT-4o réduit le nombre de tokens nécessaires pour diverses langues, améliorant ainsi l’efficacité et réduisant les coûts. Pour des langues comme l’italien, l’allemand, l’espagnol ou le français, la réduction peut atteindre de 1,1x à 1,2x. Cela signifie des interactions plus fluides et économiques pour les utilisateurs.
Le déploiement de GPT-4o a commencé sur ChatGPT, et de nombreux utilisateurs gratuits en France ont été invité, en se connectant à ChatGPT ce matin, à utiliser GPT-4o. D’ailleurs, il est disponible pour les utilisateurs gratuits et les abonnés ChatGPT Plus, comme le montre ce tableau des fonctionnalités :
Les abonnés Plus bénéficient de limites d’utilisation plus élevées. De plus, le modèle sera accessible via l’API d’OpenAI, avec un tarif compétitif de 5 dollars par million de tokens en entrée et 15 dollars en sortie.
Le « Voice Mode » : un assistant vocal avancé qui vise à concurrencer Siri et OK Google
Avec le lancement de GPT-4o, OpenAI présente aussi un Voice Mode réinventé. On sait qu’OpenAI a effectué de nombreux progrès sur le canal de la voix, notamment avec sa technologie Voice Engine, qui serait capable de cloner une voix humaine. Ici, contrairement aux assistants vocaux traditionnels, le Voice Mode dont il est question unifie la transcription audio / texte, l’intelligence du langage et la génération texte / audio en un seul modèle. Cette intégration permet une latence moyenne de seulement 232 millisecondes, rapprochant les interactions de la fluidité des conversations humaines.
GPT-4o est également capable de détecter et de comprendre les tons et émotions dans l’audio, allant au-delà de la simple transcription. Il peut générer des réponses vocales avec différents styles et tons, y compris le chant, offrant ainsi une expérience utilisateur plus riche et immersive.
ChatGPT connaît une interface améliorée permettant l’utilisation d’images ou documents
Outre le Voice Mode, GPT-4o permet également des améliorations significatives à l’interface de ChatGPT. Les utilisateurs peuvent maintenant partager des éléments visuels comme des images ou des documents pour des interactions plus interactives et contextuelles. L’IA peut analyser ces éléments et fournir des réponses pertinentes, rendant l’expérience utilisateur plus intuitive et fluide.
Lors d’une démonstration en direct, un chercheur d’OpenAI a réussi à faire résoudre à ChatGPT une équation mathématique simple en utilisant uniquement des indices visuels. De plus, l’IA a pu détecter l’humeur du chercheur en analysant son visage, illustrant une interaction homme-machine d’une fluidité et d’une intelligence impressionnantes.
À noter, pour les utilisateurs Apple (Macbook, iMac…), que le Voice Mode de GPT-4o sera intégré dans la nouvelle application bureau de ChatGPT, disponible sur macOS. Les utilisateurs pourront activer ce mode via un raccourci clavier et bénéficier d’une compréhension contextuelle améliorée grâce à l’accès aux éléments visuels affichés sur leur écran.