Comment créer une voix IA qui ressemble à la vôtre avec ElevenLabs

L’IA générative et les deepfakes ont été profondément intégrés pour développer des outils audio avancés. L'idée est simple : vous prenez un son et vous le manipulez pour que le modèle prononce les mots que vous lui donnez.

La technologie de fabrication de la voix est considérée comme l’un des développements les plus importants dans le monde de la technologie moderne, car il est possible de créer une voix artificielle incroyablement similaire à la voix humaine à l’aide d’invites textuelles. Parmi les outils et plates-formes innovants qui vous permettent de réaliser cet exploit impressionnant se trouve ElevenLabs, qui propose un niveau d'utilisation gratuit ainsi que d'excellentes options payantes.

Dans cet article, nous verrons en détail comment utiliser la technologie de synthèse vocale avec ElevenLabs et les avantages qui en découlent. Nous passerons en revue les étapes clés de la création d'audio qui peuvent être utiles dans diverses applications, de l'audio et de la publicité aux applications d'IA et d'apprentissage automatique. Vérifier La technologie immersive est-elle un gain ou une perte pour la cybersécurité ?

Comment créer une voix IA qui ressemble à la vôtre avec ElevenLabs | 1fVmO1yF4iWxD9wWttp16wQ-DzTechs | intelligence artificielle

Qu’est-ce qu’ElevenLabs ?

ElevenLabs a été fondée par un ancien ingénieur en apprentissage automatique chez Google et un ancien stratège chez Palantir Technologies, une société de recherche en technologie vocale. Un modèle vocal est un élément clé de sa stratégie, mais l’objectif ultime est de créer un outil qui « convertit instantanément l’audio parlé entre différentes langues ».

ElevenLabs Voice AI est un modèle de synthèse vocale basé sur l'IA qui peut créer une voix humaine au son réaliste. Son site Internet indique :

« Notre mission est de faire du support vocal multilingue à la demande une réalité dans les domaines de l'éducation, du streaming, des livres audio, des jeux, des films et même du chat en temps réel. »

Google Translate et ses alternatives offrent déjà de la valeur, mais pouvez-vous imaginer un outil capable de traduire instantanément ce que vous entendez sous forme orale ? Reproduire la voix de l'orateur afin que vous entendiez la conversation telle qu'il la dit est un point de départ important pour y parvenir.

Qu’est-ce que la génération de sons IA ?

Décrit simplement, la génération de voix IA vous permet de capturer une voix et de lui faire dire ce que vous voulez qu'elle entende. Choisissez simplement une voix et proposez le dialogue, et le modèle personnalisé fait le reste.

Vous pourriez dire « eh bien, Microsoft Sam faisait ça dans les années XNUMX » et vous auriez tout à fait raison. Mais Microsoft Sam et les outils similaires ressemblaient à des robots. Pendant ce temps, l'outil d'ElevenLabs semble beaucoup plus proche des humains.

ElevenLabs propose trois options d'IA vocale : ses voix « prédéfinies » entièrement gratuites, son générateur de voix AI (vous permet de choisir le sexe, l'âge et l'accent) et des voix « clones » sur abonnement uniquement que vous pouvez télécharger.

Voici un exemple:

Note: L'utilisation de l'IA à des fins créatives s'accompagne de certaines responsabilités éthiques et en matière de propriété intellectuelle, et créer des voix avec l'outil vocal d'IA d'ElevenLabs n'est pas différent. Bref, n’utilisez la voix de personne sans sa permission. Même si cela n’est pas illégal, cela peut les contrarier.

Avant de continuer, rappelez-vous qu'au moment de la rédaction de cet article, l'outil d'IA vocale d'ElevenLabs est en version bêta. Cela signifie qu'il ne s'agit pas du produit final. Vérifier Explorez les projets d'IA passionnants que vous pouvez réaliser avec votre Raspberry Pi.

Créer un dialogue de base sur l'IA

Le moyen le plus simple de commencer est d'utiliser l'outil vocal gratuit piloté par l'IA d'ElevenLabs.

Pour l'utiliser, rendez-vous sur bêta.elevenlabs.io Et créez un compte (vous pouvez utiliser votre email, votre compte Google ou Facebook).

Voici les prochaines étapes :

  • Cliquez Synthèse de discours.
  • Sélectionnez l'une des voix prédéfinies dans les paramètres (des voix masculines et féminines sont disponibles).
  • Développez les paramètres sonores pour définir les curseurs Stabilité et Clarté + Améliorer la similarité (une stabilité plus élevée est généralement monotone, une clarté plus élevée est plus proche du son souhaité).

Comment créer une voix IA qui ressemble à la vôtre avec ElevenLabs | 1r95oUTcgRaffv3Ko9LrDSA-DzTechs | intelligence artificielle

  • Sélectionner Onze monolingues (Anglais standard).
  • Saisissez le texte que vous souhaitez convertir en parole.
  • Cliquez Créer.

Comment créer une voix IA qui ressemble à la vôtre avec ElevenLabs | 1gc6N0KQn2wWhBjgvCYBCuQ-DzTechs | intelligence artificielle

  • Une fois le processus terminé, le son devrait être joué automatiquement ; Sinon, cliquez Courir.

Vous pouvez également télécharger l'échantillon généré.

Comment créer une voix IA avec ElevenLabs

Si vous préférez créer une nouvelle voix, vous pouvez utiliser le bouton Ajouter une voix pour visiter l'écran VoiceLab. Pour créer un nouveau son basé sur les préréglages ElevenLabs :

  • Cliquez Ajouter du son -> Conception sonore.

Comment créer une voix IA qui ressemble à la vôtre avec ElevenLabs | 1JxnPIECqxz6-AK_TpGojDQ-DzTechs | intelligence artificielle

  • Définissez les champs sexe, âge et dialecte.
  • Ajustez le curseur de force de mise au point comme vous le souhaitez.
  • Saisissez le texte que vous souhaitez convertir.
  • Cliquez Créer.

Comment créer une voix IA qui ressemble à la vôtre avec ElevenLabs | 1FSLEGdziMiw0O9Jfpo_kBg-DzTechs | intelligence artificielle

  • Lorsque vous avez terminé, écoutez.

Au cours des tests, j’ai découvert que les accents féminin/jeune/australien et masculin/vieux/australien étaient distinctement « américains ». Ce problème sera probablement résolu à mesure que la technologie s’améliorera.

Créez votre propre voix IA

Bien que les options prédéfinies et configurables soient intéressantes, l’élément vraiment intéressant de la technologie d’ElevenLabs est l’option « Reproduction instantanée de la voix ».

Contrairement à d’autres options, Instant Voice Reproduction nécessite un abonnement. Plusieurs options sont disponibles, la moins chère étant de 5 $ par mois. Au moment de la rédaction de cet article, cela s'accompagne d'une réduction de 80 % pour le premier mois, soit seulement XNUMX $.

D'autres options coûtent 22 $, 99 $ et 330 $ par mois, avec la possibilité de générer jusqu'à 40 heures d'audio par mois.

Pour utiliser la transcription vocale d'ElevenLabs, vous aurez besoin de dialogues et d'un échantillon de votre voix. Tout fera l'affaire, à condition que ce soit clair et au format MP3. Plus l'échantillon est long, mieux c'est, jusqu'à 5 minutes.

Depuis l'écran VoiceLab :

  • Cliquez Ajouter de l'audio -> Transcription audio instantanée.
  • Dans la fenêtre résultante, attribuez un nom.
  • Cliquez ou faites glisser le fichier approprié pour charger l'échantillon audio (jusqu'à 25 échantillons peuvent être ajoutés pour améliorer la précision).
  • Cliquez sur Étiquettes et sélectionnez Clé + Valeur (par exemple, Accent/British) — faites-le jusqu'à 5 fois.

Comment créer une voix IA qui ressemble à la vôtre avec ElevenLabs | 1lBN7KgPQlzTVfWMojQfUBg-DzTechs | intelligence artificielle

  • Saisissez une brève description de l'audio.
  • Cochez la case Confirmer le consentement, puis Ajouter un son.

Avec l'audio ajouté, vous pouvez l'ajuster dans l'écran de synthèse vocale comme mentionné ci-dessus. Vérifier Évaluation de l'utilisation de la technologie de reproduction sonore dans la création de contenu à grande échelle.

Que pouvez-vous faire avec la voix IA ?

AI Voice possède de nombreuses voix prédéfinies et reproduites avec de nombreuses possibilités. Comme mentionné précédemment, l'objectif ultime d'ElevenLabs est la traduction en direct, mais il a noté de nombreuses autres utilisations.

Les livres audio (peut-être lus par une star de cinéma décédée depuis longtemps) sont mentionnés, ainsi que les jeux vidéo (l'utilisation d'une voix IA permettrait d'économiser de l'argent sur les doubleurs). Mais il a des utilisations au-delà de cela, de la musique à la satire en passant par l’auto-assistance, et peut-être au-delà de cela.

Vous pouvez également créer un podcast à l’aide de l’audio AI, même si les résultats peuvent sembler plats et ennuyeux.

L'intro de cet épisode de podcast Really Practical a été produite avec ElevenLabs :

Même si les résultats n’ont pas été à la hauteur de nos espérances, ils sont suffisamment bons pour être utilisés et la technologie ne peut que s’améliorer.

Pendant ce temps, ElevenLabs prévoit de déployer la fonctionnalité « Voice Chat » à une date ultérieure.

Foire Aux Questions

Q1 : Quelle est la technologie de fabrication des sons ?

La technologie de synthèse vocale est une technologie qui utilise l’intelligence artificielle et des techniques de traitement du son pour créer une voix artificielle ressemblant à la voix humaine. Il peut être utilisé dans diverses applications telles que les applications audio, publicitaires et d’intelligence artificielle.

Q2 : Qu'est-ce qu'ElevenLabs et que propose-t-il ?

ElevenLabs est une plateforme avancée basée sur des technologies de fabrication solides. Il fournit aux utilisateurs des outils puissants pour créer une voix synthétique pouvant être similaire à leur voix personnelle. ElevenLabs vous aide à personnaliser les sons et à les utiliser pour diverses utilisations.

Q3 : Comment puis-je commencer à utiliser ElevenLabs ?

Vous pouvez facilement commencer en vous inscrivant sur la plateforme ElevenLabs et en explorant son interface simple et conviviale. Vous aurez la possibilité de créer et de personnaliser votre propre voix synthétique et de l'utiliser dans votre projet.

Q4 : Existe-t-il des exigences particulières pour l’utilisation d’une technologie de fabrication sonore ?

Vous n'avez pas besoin de connaissances techniques avancées pour utiliser ElevenLabs, mais il est utile de comprendre les concepts de base du traitement audio et d'utiliser les technologies de base. Vous trouverez l'interface utilisateur et les instructions faciles à utiliser et vous aideront à démarrer.

Q5 : Quelles sont les applications courantes de la technologie de fabrication sonore d'ElevenLabs ?

Les applications populaires incluent les publicités audio personnalisées, les services vocaux personnalisés et les applications d'intelligence artificielle qui manipulent les voix synthétiques. ElevenLabs permet de personnaliser les sons pour les adapter précisément à votre projet.

Utilisez votre voix d'une nouvelle manière avec l'IA d'ElevenLabs

L’intelligence artificielle nous a apporté de nouveaux outils étonnants au cours des dernières années. Chat-GPT peut être utilisé pour générer du texte, répondre à des questions, planifier des rapports, etc. À mi-parcours C'est un modèle étonnant qui génère de l'art basé sur des revendications.

Désormais, l'outil Speech AI d'ElevenLabs facilite le travail avec la voix. C'est comme une usurpation d'identité, mais avec une copie de l'audio original.

Bien qu’il existe des arguments éthiques contre l’utilisation des voix sans consentement, il s’agit d’un outil puissant avec des utilisations intéressantes. Mieux encore, il est étonnamment facile à utiliser et donne des résultats étonnants. Vous pouvez maintenant visualiser Le meilleur générateur d'art AI pour créer de l'art créatif à partir de photos.

Remonter en haut