Google franchit une nouvelle frontière dans l’intelligence artificielle conversationnelle avec le lancement de Gemini 2.5 Flash Native Audio. Contrairement aux assistants vocaux traditionnels qui transcrivent la voix en texte, l’envoient à un modèle de langage, puis passent par un système de synthèse vocale, cette version génère directement du son.
Ce fonctionnement permet de réduire la latence et de rendre les échanges plus proches d’une conversation réelle. Les voix produites paraissent plus naturelles, avec un phrasé fluide, des pauses réalistes et une meilleure gestion des interruptions.
Comment fonctionne Gemini 2.5 Flash Native Audio
La nouveauté est disponible en version expérimentale à travers le Live API et l’interface Google AI Studio. Les développeurs peuvent déjà la tester pour créer des expériences interactives, par exemple dans le cadre de services clients vocaux. Google met en avant la qualité des voix, disponibles en plusieurs langues et variantes, et la capacité du modèle à comprendre quand une phrase s’adresse à lui ou non grâce au mode « Proactive Audio ». L’entreprise a également introduit des mécanismes de transparence comme le filigranage numérique avec SynthID, qui permet d’indiquer clairement qu’une voix a été générée par l’intelligence artificielle.
Une avancée prometteuse mais encore limitée
Cette version native n’est pas encore pleinement intégrée à l’écosystème Gemini et reste marquée par certaines limites. Par exemple, elle ne reproduit pas encore d’émotions avec la finesse attendue, ce qui la place en retrait par rapport à certains concurrents. De plus, elle demeure pour l’instant un outil expérimental destiné aux développeurs, en attendant une intégration plus large dans les produits Google. Néanmoins, cette avancée marque une étape importante dans la course aux assistants vocaux réalistes.
À terme, elle pourrait remplacer Gemini Live et donner naissance à une nouvelle génération d’interfaces capables de converser avec une fluidité et une humanité inédites.







