Cloner une voix avec l'IA

Alexandre P. dans Dev - mis à jour le 27-01-2026

Je vous ai déjà fait un petit article de clonage de voix avec l'IA avec TTS (Text-to-Speech) en Python, ici.

Cela fera presque 2 ans, et j'ai testé des technologies différentes:

Bark
TTS
ElevenLabs (en payant)

Mon constat ?

En opensource je n'ai jamais trouvé d'équivalent à ElevenLabs. Il y a tout de même un écart de qualité considérable car j'arrive souvent à reproduire le timbre, mais rarement la diction ou les accents.

Mais ça... C'était avant !

Avant de découvrir Qwen3-TTS un model chinois qui est dinguissime et qui permet de faire tout ce que je pensais jusqu'alors trop compliqué. Et les chinois, dans leur élan de générosité et leur démonstration de compétence, nous ont offert ce model en opensource !

On parle d'un modèle de 1.7 milliards de paramètres, même s'il vous faut une bécane solide pour pouvoir en profiter.

J'ai fait des tests sur mon Mac M4 et je l'ai mis en PLS. Alors que ça marche nickel sur ma station IA avec une RTX 5060 Ti.

Vous pouvez tester le model sur HuggingFace, ça vous donnera déjà une idée de son potentiel.

Et pour vous donner un exemple, j'ai essayé de faire chanter du Kaaris à Cartman:

J'ai même essayé avec Eddy Malou et là il reprend même l'accent (ce qui est une prouesse):

Pour générer de tels samples sur ma RTX 5060 Ti il faut compter 15 secondes environ.

Amusez-vous bien 😉.

FAQ

Qwen3-TTS est-il vraiment utilisable gratuitement ?

Oui, le modèle est publié en open source par l'équipe Qwen. Vous pouvez aussi le tester directement sur HuggingFace sans rien installer, ce qui permet de juger la qualité avant de vous lancer.

Quel matériel faut-il pour faire tourner ce modèle correctement ?

Une carte graphique puissante est recommandée : sur une RTX 5060 Ti, la génération prend environ 15 secondes par sample. Sur un Mac M4, les résultats sont décevants, le modèle s'y retrouve clairement à l'étroit.

Est-ce que la qualité se rapproche vraiment d'ElevenLabs ?

C'est l'avis de l'auteur après deux ans de tests comparatifs incluant Bark, TTS et ElevenLabs en version payante. Qwen3-TTS reproduit non seulement le timbre mais aussi la diction et les accents, ce qui était jusqu'ici le point faible de toutes les solutions open source.

Comment tester Qwen3-TTS sans coder ?

Rendez-vous sur l'espace dédié de HuggingFace, vous pourrez y soumettre du texte et écouter le résultat directement dans votre navigateur, sans installation ni configuration.

Peut-on cloner n'importe quel style vocal, y compris avec accent ?

Les exemples présentés montrent le clonage de voix avec des accents marqués, et le modèle les restitue fidèlement. C'est précisément ce type de nuance qui manquait aux solutions open source précédentes.

#clone#voice#ai#gen

Cloner une voix avec l'IA

FAQ

Poursuivre la lecture

Je clone la voix de Cartman avec Python, PyTorch et TTS

Mon nouvel outil de voice clone