Cloner une voix avec l'IA

Cloner une voix avec l'IA
Alexandre P. dans Dev - mis à jour le 27-01-2026

Découvrez pourquoi Qwen3 TTS explose le clonage de voix open source, qualité proche d’ElevenLabs, tests réels en Python sur Mac M4 et RTX 5060 Ti.

Je vous ai déjà fait un petit article de clonage de voix avec l'IA avec TTS (Text-to-Speech) en Python, ici .

Cela fera presque 2 ans, et j'ai testé des technologies différentes:

  • Bark
  • TTS
  • ElevenLabs (en payant)

Mon constat ?

En opensource je n'ai jamais trouvé d'équivalent à ElevenLabs. Il y a tout de même un écart de qualité considérable car j'arrive souvent à reproduire le timbre, mais rarement la diction ou les accents.

Mais ça... C'était avant !

Avant de découvrir Qwen3-TTS un model chinois qui est dinguissime et qui permet de faire tout ce que je pensais jusqu'alors trop compliqué. Et les chinois, dans leur élan de générosité et leur démonstration de compétence, nous ont offert ce model en opensource !

On parle d'un modèle de 1.7 milliards de paramètres, même s'il vous faut une bécane solide pour pouvoir en profiter.

J'ai fait des tests sur mon Mac M4 et je l'ai mis en PLS. Alors que ça marche nickel sur ma station IA avec une RTX 5060 Ti.

Vous pouvez tester le model sur HuggingFace , ça vous donnera déjà une idée de son potentiel.

qwen3tts.jpg

Et pour vous donner un exemple, j'ai essayé de faire chanter du Kaaris à Cartman:

J'ai même essayé avec Eddy Malou et là il reprend même l'accent (ce qui est une prouesse):

Pour générer de tels samples sur ma RTX 5060 Ti il faut compter 15 secondes environ.

Amusez-vous bien 😉.

FAQ

Qwen3-TTS est-il vraiment utilisable gratuitement ?

Oui, le modèle est publié en open source par l'équipe Qwen. Vous pouvez aussi le tester directement sur HuggingFace sans rien installer, ce qui permet de juger la qualité avant de vous lancer.

Quel matériel faut-il pour faire tourner ce modèle correctement ?

Une carte graphique puissante est recommandée : sur une RTX 5060 Ti, la génération prend environ 15 secondes par sample. Sur un Mac M4, les résultats sont décevants, le modèle s'y retrouve clairement à l'étroit.

Est-ce que la qualité se rapproche vraiment d'ElevenLabs ?

C'est l'avis de l'auteur après deux ans de tests comparatifs incluant Bark, TTS et ElevenLabs en version payante. Qwen3-TTS reproduit non seulement le timbre mais aussi la diction et les accents, ce qui était jusqu'ici le point faible de toutes les solutions open source.

Comment tester Qwen3-TTS sans coder ?

Rendez-vous sur l'espace dédié de HuggingFace, vous pourrez y soumettre du texte et écouter le résultat directement dans votre navigateur, sans installation ni configuration.

Peut-on cloner n'importe quel style vocal, y compris avec accent ?

Les exemples présentés montrent le clonage de voix avec des accents marqués, et le modèle les restitue fidèlement. C'est précisément ce type de nuance qui manquait aux solutions open source précédentes.

#clone#voice#ai#gen

user picture

Alexandre P.

Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.