Mon nouvel outil de voice clone

Clonez plusieurs voix simultanément avec les nouveaux modèles TTS, créez des conversations réalistes en local avec une RTX 5060 Ti, performances et rendu bluffants.
Vous le savez, je parle souvent de voice clone:
Dernièrement je me faisais un outil pour gérer le clone de voix, un peu à la Eleven Labs.
Et je peux vous dire que désormais, avec les nouveaux modèles, on passe dans une autre dimension.
D'ailleurs, un des avantages est de pouvoir cloner plusieurs voix en même temps, pour en faire une conversation.
Voici mon outil:

Voici le résultat:
Je trouve ça très convaincant, surtout sur matériel accessible pour les particuliers.
Ici j'utilise une RTX 5060 Ti, car il faut tout de même énormément de VRAM.
Il faut compter une dizaine de secondes par phrase pour la génération, c'est très correct.
FAQ
Quel matériel faut-il pour faire tourner cet outil en local ?
Une carte graphique avec beaucoup de VRAM est indispensable, l'auteur utilise une RTX 5060 Ti. Ce type de GPU reste accessible aux particuliers tout en offrant des performances très correctes.
Combien de temps prend la génération d'une phrase ?
Compte environ une dizaine de secondes par phrase, ce qui est considéré comme très acceptable pour une génération locale de cette qualité.
Est-il possible de simuler une vraie conversation entre plusieurs personnes ?
Oui, l'outil permet de cloner plusieurs voix simultanément et de les assembler pour produire un échange réaliste, comme une conversation entre deux personnalités distinctes.
Faut-il passer par un service en ligne comme ElevenLabs pour obtenir ce résultat ?
Non, tout fonctionne en local sur ta propre machine, sans dépendre d'une API externe ni envoyer de données à un service tiers.

Alexandre P.
Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.
Poursuivre la lecture


