« Maman, j'ai eu un accident » : 30 secondes suffisent désormais à reproduire la voix de votre fils

Le téléphone sonne. Une voix reconnaissable entre toutes, celle de votre fils, vous annonce qu'il a eu un accident, qu'il a besoin d'argent tout de suite, qu'il ne faut rien dire à personne. Vous êtes prêt à tout pour l'aider. Mais cette voix n'est pas la sienne. Elle a été fabriquée en moins de trente secondes, à partir d'une vidéo de famille postée sur Facebook il y a trois semaines.

Ce scénario n'est plus une hypothèse de thriller technologique. Avec 20 % des nouvelles alertes de fraude, cette technique consiste à recevoir un message vocal apparemment de son fils ou de sa petite-fille en détresse, les arnaqueurs capturent trente secondes de voix via un appel ou un post Facebook, par exemple un senior postant une vidéo de famille, et créent un enregistrement vocal. Le reste est affaire de mécanique émotionnelle : l'urgence, la peur, l'amour. Trois ressorts que les escrocs manient avec une précision clinique.

À retenir

Trente secondes d'enregistrement audio suffisent désormais à cloner une voix
Les retraités sont la cible privilégiée d'une vague de fraudes orchestrée avec des deepfakes audio
Un mot de passe secret partagé hors du monde numérique reste la meilleure arme contre les arnaqueurs

Trente secondes. C'est le nouveau seuil.

Si vous avez une page Facebook ou si vous avez enregistré un TikTok et que votre voix y figure pendant trente secondes, les gens peuvent cloner votre voix. Cette réalité, documentée par les experts en cybersécurité, a radicalement changé la nature des arnaques téléphoniques. Les escrocs clonent des voix en rassemblant de courts échantillons audio puis en utilisant des outils d'IA pour reproduire le timbre et l'intonation d'une personne. Parfois, quelques secondes d'élocution claire suffisent à obtenir une approximation convaincante.

La plateforme ElevenLabs est devenue l'une des références de ce domaine, et le symbole de son ambivalence. La technologie est suffisamment avancée pour reproduire fidèlement une voix avec trente secondes d'audio. Il suffit de fournir un extrait audio de la voix concernée, trente secondes minimum pour le clonage instantané, et ElevenLabs reproduit le timbre, l'accent, les habitudes de prononciation. Conçue pour les créateurs de contenu et les livres audio, cette technologie légale est détournée sans effort par des réseaux criminels organisés. Les deepfakes audio deviennent de plus en plus naturels, imitant même les tics de langage, ce qui rend la détection humaine particulièrement difficile, observe Anthony Level, cofondateur de Label4.ai, startup spécialisée dans la détection de contenus générés par IA. Microsoft estime que la voix d'une personne peut être clonée en seulement trois secondes. Un arnaqueur pourrait donc échanger avec vous quelques instants au téléphone, juste dans le but de cloner votre voix.

Le procédé combine clonage vocal et une technique complémentaire, le spoofing. Cette technique permet de manipuler le numéro qui s'affiche sur votre écran. Ils peuvent ainsi faire croire que l'appel provient de votre banque, d'un service gouvernemental, ou d'un de vos proches. Cette double tromperie, un numéro de confiance et une voix familière, abaisse la vigilance de manière drastique. Un piège parfait, en somme, où chaque élément de réassurance est fabriqué.

Les retraités, cible numéro un d'une arnaque industrialisée

Des escrocs utilisent l'intelligence artificielle pour cloner des voix et se faire passer pour des conseillers Agirc-Arrco au téléphone. Cette technique appelée « vishing » fait des ravages chez les retraités. L'Agirc-Arrco, qui verse chaque mois une pension complémentaire à 14 millions de retraités, a officiellement publié une alerte sur son site pour mettre en garde ses assurés. Les cybercriminels ont clairement identifié leur cible : les retraités et les futurs retraités, notamment ceux qui perçoivent une pension Agirc-Arrco ou issue du régime général.

Le vishing ne se limite pas à l'imitation d'un proche. Dans les cas les plus avancés, des escrocs utilisent même des voix de type deepfake, simulant un conseiller téléphonique crédible, avec un ton posé et un vocabulaire très professionnel. Le mécanisme psychologique est toujours le même : chaque message frauduleux joue sur la peur et crée un sentiment d'urgence chez les retraités, prétextant qu'une mise à jour « vitale » de leur compte est nécessaire « sous peine de voir le versement de leurs pensions être suspendu ».

Les chiffres donnent le vertige. En France, les fraudes numériques ont bondi de 30 % selon la plateforme cybermalveillance.gouv.fr. Une étude menée en 2024 par l'École polytechnique de Quito a simulé une campagne de vishing reposant sur des logiciels de clonage vocal grand public. Les résultats sont effrayants : en moyenne 60 % des personnes appelées ont transmis des informations sensibles à leur correspondant. Seulement 15 % des cibles ont déjoué l'attaque. D'après la Fondation de France, environ 800 000 personnes de plus de 75 ans subissent chaque année des abus similaires en France.

Comment ne pas tomber dans le piège

La bonne nouvelle, il y en a une, tient dans une faille que l'IA ne peut pas combler : elle ignore les secrets partagés hors du monde numérique. Convenez d'un mot de passe avec vos proches. Un mot simple, connu de vous seuls, hors du monde numérique. Lors d'un appel d'urgence suspect, demandez ce code. Si l'interlocuteur ne peut pas le donner, raccrochez sans hésiter.

L'autre réflexe décisif est la temporisation. Raccrocher pour rappeler ou vérifier auprès d'une autre personne doit être la règle. Utiliser un canal de contact fiable est une réponse raisonnable et toute personne authentique l'acceptera. Les escrocs tenteront de vous en dissuader : c'est un bon test pour filtrer les appels douteux. Un vrai fils accepte qu'on le rappelle sur son numéro habituel. Un escroc, non.

Du côté de l'empreinte vocale de vos proches, quelques précautions limitent l'exposition. Vidéos, notes vocales et messages d'accueil peuvent servir de matière première pour le clonage. Il n'est pas nécessaire d'arrêter tout partage, mais limiter les enregistrements longs ou très clairs réduit l'exposition. Une vidéo de trente secondes où votre fils souffle ses bougies d'anniversaire suffit techniquement. Ce n'est pas une raison de cesser de filmer vos proches, c'est une raison de ne pas tout publier publiquement.

Si malgré tout vous êtes victime, le temps est compté. Changez votre mot de passe piraté sur tous les sites ou comptes sur lesquels il pourrait être présent, prévenez immédiatement vos organismes bancaires, conservez les preuves (emails, copie d'écran), déposez plainte sur le site pre-plainte-en-ligne.gouv.fr, et contactez INFO ESCROQUERIES au 0 805 805 817.

La voix, nouveau document d'identité à protéger

L'IA peut recréer la voix, mais il peut manquer certaines nuances, comme des hésitations ou des variations naturelles dans le ton. C'est aujourd'hui la seule fissure dans l'armure. Une voix clonée sonne légèrement trop lisse, trop régulière, aucune des micro-hésitations, des respirations imparfaites, des silences qui font la texture d'une vraie conversation émotionnelle. En passant une communication téléphonique de piètre qualité, via une messagerie de type WhatsApp, et en créant un faux sentiment d'urgence, un cybercriminel peut aisément duper son interlocuteur, note Corinne Naturel de Label4.ai. La mauvaise qualité audio est un choix délibéré : elle masque les imperfections du clone.

Deux startups françaises, Label4.ai et Whispeak, travaillent précisément à développer des outils de détection de deepfakes vocaux, capables d'analyser en temps réel si une voix a été synthétisée. Whispeak entraîne ses modèles de deep learning sur des corpus publics et des panels de voix pour leur apprendre à distinguer une voix authentique d'une voix de synthèse. L'analyse forensique permet de déterminer si tout ou partie d'un fichier audio a été trafiqué. Ces solutions restent pour l'heure davantage déployées en entreprise qu'auprès des particuliers, mais leur démocratisation est une question de mois, pas d'années.

Sources : pairform.fr | senioractu.com