OpenAI muscle la voix : trois nouveaux modèles audio dans l'API

OpenAI lance 3 modèles audio dans l'API : GPT-Realtime-2 avec raisonnement GPT-5, traduction live 70 langues et transcription streaming pour agents vocaux.
Vous connaissez ma passion pour la voix et l'IA, j'en parle souvent, et bien accrochez-vous !
OpenAI a dégainé trois nouveaux modèles audio dans son API Realtime, avec l'ambition de faire passer la voix du simple call-and-response à de vrais agents capables d'écouter, raisonner et agir pendant la conversation.
Le trio se compose de GPT-Realtime-2 (modèle vocal principal), GPT-Realtime-Translate (traduction live) et GPT-Realtime-Whisper (transcription streaming).
C'est moins une mise à jour incrémentale qu'un repositionnement : la voix devient une couche d'exécution, pas juste un canal d'entrée/sortie.
GPT-Realtime-2 est la pièce maîtresse, présentée comme le premier modèle vocal d'OpenAI doté d'un raisonnement de classe GPT-5.
Concrètement, il gère mieux les requêtes complexes, supporte les appels d'outils en parallèle, sait dire "let me check that" pendant qu'il réfléchit et récupère plus proprement des erreurs.
Les développeurs disposent de cinq niveaux de reasoning effort (de minimal à xhigh, low par défaut), pour arbitrer entre latence et profondeur de raisonnement.
Sur les benchmarks audio internes, OpenAI revendique +15,2% sur Big Bench Audio et +13,8% sur Audio MultiChallenge face à GPT-Realtime-1.5.
Les deux autres modèles couvrent les cas d'usage spécialisés. GPT-Realtime-Translate fait de la traduction continue avec plus de 70 langues d'entrée et 13 langues de sortie, en suivant le rythme du locuteur (Deutsche Telekom est cité comme early adopter).
GPT-Realtime-Whisper, lui, s'attaque à la transcription temps réel pendant que la personne parle.
Les premiers déploiements en production, comme celui de Zillow, mettent en avant des gains sur le taux de complétion d'appels et la robustesse de la conformité, ce qui colle avec la cible évidente : centres de contact, support client multilingue, et agents vocaux intégrés à un CRM.
Côté tarifs, GPT-Realtime-2 est facturé au token, tandis que Translate et Whisper passent au modèle à la minute, ce qui simplifie le forecast pour les usages volumiques.
Pour les équipes qui construisent des produits vocaux, l'arrivée de cette génération change la donne :
- on quitte le territoire du chatbot vocal scripté pour entrer dans celui des agents qui dialoguent
- exécutent des actions (parallel tool calls, intégrations CRM)
- se rattrapent quand ça dérape.
À surveiller de près si vous opérez dans le CHR, le retail ou le support, là où la voix reste sous-exploitée mais à très fort ROI.
On passe un cap: le team réel, c'est le niveau ultime de la voix, donc cette annonce est un tournant.

Alexandre P.
Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.
Poursuivre la lecture

