OpenAI, l’éditeur de ChatGPT, semble avoir des projets ambitieux dans le domaine des assistants vocaux. Selon des documents déposés auprès de l’Office américain des brevets et des marques, la société a fait une demande d’enregistrement de marque pour « Voice Engine », suggérant ainsi un développement dans le domaine de la reconnaissance et de la génération vocale assistée par l’intelligence artificielle… Et on apprend que ce projet sera capable d’imiter parfaitement une voix humaine.
Mise à jour du 03/04/2024 : Voice Engine sera capable de cloner n’importe quelle voix humaine
On en sait un peu plus sur Voice Engine. OpenAI a récemment dévoilé que « Voice Engine » serait capable de cloner des voix à partir d’échantillons audio de seulement 15 secondes. Cette avancée technologique promet des applications passionnantes mais soulève également des préoccupations quant à son utilisation éthique. Pour contrer les risques potentiels tels que la fraude ou les crimes comme l’usurpation d’identité, OpenAI prévoit de restreindre strictement l’accès à cet outil.
Selon les résultats d’un test à petite échelle, Voice Engine est capable de reproduire fidèlement la voix d’une personne à partir d’un court enregistrement audio. Consciente des implications de cette technologie, OpenAI, basée à San Francisco, reconnaît les risques associés à la création de voix synthétiques, en particulier en cette année électorale cruciale. Pour minimiser ces risques, l’entreprise collabore avec divers partenaires provenant de divers secteurs, y compris le gouvernement, les médias et la société civile, afin de recueillir des avis et de développer l’outil de manière responsable.
Pour assurer une utilisation éthique de Voice Engine, OpenAI a mis en place des mesures de sécurité strictes, notamment des règles exigeant le consentement explicite et informé de toute personne dont la voix est dupliquée, ainsi que la transparence pour les auditeurs quant à l’origine artificielle des voix générées. De plus, un système de marquage en filigrane a été mis en place pour permettre de retracer l’origine de tout son généré par Voice Engine, tandis qu’un contrôle proactif de son utilisation est également assuré par l’entreprise.
La présentation prudente de Voice Engine intervient à la suite d’un incident politique majeur où un consultant travaillant pour la campagne présidentielle d’un rival démocrate de Joe Biden a utilisé un programme automatisé pour imiter la voix du président américain, dans le but de perturber les élections. Suite à cet incident, les États-Unis ont interdit les appels utilisant des voix synthétiques générées par l’IA pour lutter contre les arnaques politiques ou commerciales.
Article du 25/03/2024 : En détail, la démarche de dépôt de marque
On vous parlait déjà il y a quelques semaines du lancement de Sora, l’IA générative vidéo d’OpenAI qui serait capable de créer des vidéos au réalisme poussé à partir de simples instructions. Quand on attaque la vidéo, l’audio semble également un canal pertinent, et avec le succès des assistants comme « Siri » ou « OK Google », la tentation de conquérir ce segment d’utilisateur est plus que pertinent.
En effet, la semaine dernière, OpenAI a déposé sa demande d’enregistrement de marque pour « Voice Engine », couvrant divers aspects liés aux assistants vocaux et à la manipulation automatique de la voix. Parmi les catégories énumérées dans la demande figurent notamment le « traitement des commandes vocales« , la « conversion entre le texte et la parole » ainsi que la « génération de sons et/ou de voix en réponse à des invites de l’utilisateur« .
Cette démarche soulève des interrogations sur les futurs projets de la société dans le domaine des technologies vocales et de l’interaction homme-machine. Il faut savoir que les initiatives d’OpenAI autour de la voix sont déjà nombreux, comme Whisper, une API qui permet la reconnaissance et transcription vocale. Également, ChatGPT permet déjà un fonctionnement vocal pour dicter ses prompts et écouter les réponses de l’outil.
Quelles seraient les champs d’action de « Voice Engine » ?
La liste des catégories mentionnées dans la demande de marque est plutôt large et exhaustive, laissant entrevoir la possibilité d’un éventail de services et de produits associés à la voix et à l’intelligence artificielle. Parmi les aspects couverts, on retrouve le développement de logiciels pour la création d’assistants vocaux numériques ainsi que des outils de développement destinés à améliorer la compréhension du langage naturel.
Cette initiative suggère un intérêt varié et complet pour les technologies vocales et leur intégration dans divers secteurs, allant des assistants personnels à l’interaction utilisateur-machine avancée.
Une collaboration stratégique
En parallèle de ces avancées, OpenAI semble également renforcer ses équipes avec des profils issus de grandes entreprises technologiques. Notamment, l’arrivée de Jony Ive, ancien designer d’Apple, au sein de la start-up, laisse présager une collaboration dans le développement d’appareils alimentés par l’IA. Ive a récemment recruté de nombreux ex-employés d’Apple pour rejoindre sa société LoveFrom, dédiée à l’innovation technologique.
Cette démarche stratégique pourrait dynamiser les efforts d’OpenAI dans la création d’un assistant vocal révolutionnaire, combinant l’expertise en intelligence artificielle avec l’esthétique et l’ergonomie caractéristiques des produits d’Apple… de quoi inquiéter la firme de Cupertino ?