OpenAI muscle la voix : trois nouveaux modèles audio dans l'API

OpenAI muscle la voix : trois nouveaux modèles audio dans l'API
Alexandre P. dans News - mis à jour le 09-05-2026

OpenAI lance 3 modèles audio dans l'API : GPT-Realtime-2 avec raisonnement GPT-5, traduction live 70 langues et transcription streaming pour agents vocaux.

Vous connaissez ma passion pour la voix et l'IA, j'en parle souvent, et bien accrochez-vous !

OpenAI a dégainé trois nouveaux modèles audio dans son API Realtime, avec l'ambition de faire passer la voix du simple call-and-response à de vrais agents capables d'écouter, raisonner et agir pendant la conversation.

Le trio se compose de GPT-Realtime-2 (modèle vocal principal), GPT-Realtime-Translate (traduction live) et GPT-Realtime-Whisper (transcription streaming).

C'est moins une mise à jour incrémentale qu'un repositionnement : la voix devient une couche d'exécution, pas juste un canal d'entrée/sortie.

GPT-Realtime-2 est la pièce maîtresse, présentée comme le premier modèle vocal d'OpenAI doté d'un raisonnement de classe GPT-5.

Concrètement, il gère mieux les requêtes complexes, supporte les appels d'outils en parallèle, sait dire "let me check that" pendant qu'il réfléchit et récupère plus proprement des erreurs.

Les développeurs disposent de cinq niveaux de reasoning effort (de minimal à xhigh, low par défaut), pour arbitrer entre latence et profondeur de raisonnement.

Sur les benchmarks audio internes, OpenAI revendique +15,2% sur Big Bench Audio et +13,8% sur Audio MultiChallenge face à GPT-Realtime-1.5.

Les deux autres modèles couvrent les cas d'usage spécialisés. GPT-Realtime-Translate fait de la traduction continue avec plus de 70 langues d'entrée et 13 langues de sortie, en suivant le rythme du locuteur (Deutsche Telekom est cité comme early adopter).

GPT-Realtime-Whisper, lui, s'attaque à la transcription temps réel pendant que la personne parle.

Les premiers déploiements en production, comme celui de Zillow, mettent en avant des gains sur le taux de complétion d'appels et la robustesse de la conformité, ce qui colle avec la cible évidente : centres de contact, support client multilingue, et agents vocaux intégrés à un CRM.

Côté tarifs, GPT-Realtime-2 est facturé au token, tandis que Translate et Whisper passent au modèle à la minute, ce qui simplifie le forecast pour les usages volumiques.

Pour les équipes qui construisent des produits vocaux, l'arrivée de cette génération change la donne :

  • on quitte le territoire du chatbot vocal scripté pour entrer dans celui des agents qui dialoguent
  • exécutent des actions (parallel tool calls, intégrations CRM)
  • se rattrapent quand ça dérape.

À surveiller de près si vous opérez dans le CHR, le retail ou le support, là où la voix reste sous-exploitée mais à très fort ROI.

On passe un cap: le team réel, c'est le niveau ultime de la voix, donc cette annonce est un tournant.

FAQ

Quelle est la différence entre les trois nouveaux modèles audio d'OpenAI ?

GPT-Realtime-2 est le modèle vocal principal avec capacités de raisonnement avancé, GPT-Realtime-Translate gère la traduction en continu dans plus de 70 langues, et GPT-Realtime-Whisper se spécialise dans la transcription en temps réel pendant que l'interlocuteur parle. Chacun cible un cas d'usage distinct plutôt que de tout faire à la fois.

Comment fonctionne le raisonnement dans GPT-Realtime-2 ?

Le modèle propose cinq niveaux de profondeur de raisonnement, de minimal à xhigh, avec low activé par défaut. Cela permet de choisir entre une réponse rapide et une analyse plus poussée selon les besoins de l'application.

GPT-Realtime-Translate peut-il gérer des conversations multilingues en direct ?

Oui, il supporte plus de 70 langues en entrée et 13 langues de sortie, en suivant le rythme naturel du locuteur. Deutsche Telekom est mentionné comme l'un des premiers à l'avoir déployé en production.

Comment ces modèles sont-ils facturés ?

GPT-Realtime-2 est facturé au token, tandis que les modèles Translate et Whisper sont facturés à la minute. Ce second mode simplifie l'estimation des coûts pour les usages à fort volume.

Ces modèles sont-ils vraiment utiles pour autre chose que des chatbots vocaux classiques ?

Oui, la nouveauté tient à la capacité d'exécuter des actions en parallèle, comme des appels d'outils ou des intégrations CRM, et de gérer les erreurs en cours de conversation. On sort du script figé pour aller vers de vrais agents capables d'agir pendant l'échange.

#openai#voix#ai#whisper

user picture

Alexandre P.

Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.