Inteligencia artificial

¿Se puede detectar si un audio es realizado por IA?

El fonoaudiólogo Pablo Vourliotis explica que identificar si un audio fue generado con inteligencia artificial requiere un análisis técnico profundo y advierte que las herramientas online no tienen validez científica ni judicial. La pregunta surge en medio del escándalo que salpica al senador Javier Vera, conocido como "Chaqueñito", quien afirma que los audios que lo involucran en un escándalo fueron creados por inteligencia artificial.
Imagen ilustrativa. IA

En medio del creciente uso de herramientas de inteligencia artificial capaces de imitar voces humanas, surge la pregunta cada vez más frecuente: ¿es posible saber con certeza si un audio es real o fue generado digitalmente? Este cuestionamiento se intensifica ante la polémica que envuelve al senador Javier Vera, alias "Chaqueñito" tras la circulación de audios donde se lo escucha en supuestas declaraciones comprometedoras, en donde pide "un menor de edad y virgen". El senador asegura que dichas grabaciones son producto de IA.

Ante esto, el diario El Nacional, consultó con el fonoaudiólogo Pablo Vourliotis, perito forense que auditó los audios de Vera y su respuesta fue clara: sí es posible, pero no de manera simple ni inmediata. Según explicó, este tipo de verificación requiere de un proceso técnico especializado, dividido en tres niveles de análisis.
 

Fonoaudiólogo, Pablo Vourliotis. VPS Laboratorio de Identificación humana forense: voz, habla, lenguaje y face.

El primer paso es el análisis perceptivo, que consiste en la escucha detallada del audio. En esta etapa, el especialista evalúa la naturalidad del habla, prestando atención a aspectos como la respiración, las micropausas, las muletillas y la entonación.

"Se trata de revisar la naturalidad del habla, cómo la persona está coarticulando, si la persona presenta micropausas cuando habla, si se encuentra o no respiración natural y fenómenos espontáneos, por ejemplo: el paraguayo tiene sus muletillas propias, por así decirlo, y también lo que es la prosodia, cómo canta el habla, por hablar rápido", explicó.

El segundo nivel es el análisis acústico-instrumental, donde se estudian parámetros técnicos de la voz como la frecuencia fundamental (tono), los formantes (producción de vocales) y el ritmo del habla. En este punto, Vourliotis destacó que la voz humana presenta microvariaciones naturales, mientras que los audios generados por inteligencia artificial suelen mostrar una señal más uniforme y "suavizada".

"Ahí está, por ejemplo, la frecuencia fundamental, que es el tono de la voz, los formantes, que es cómo se produce esa voz o las vocales dentro del tracto vocal, cuál es el énfasis en el espectro de esa voz, si tiene o no tiene una cadencia articulatoria", añadió.

Finalmente, se realiza un análisis automático, que cruza los datos obtenidos en las etapas anteriores para determinar, de forma probabilística, si el audio corresponde a una voz real o artificial. "Los dos ensayos anteriores tienen coincidencia con una voz natural o tiene diferencias exageradas", apuntó.

Las claves que delatan a la inteligencia artificial

Entre los principales indicios de que un audio podría haber sido generado por IA, el especialista mencionó:

  • La ausencia de respiración natural
  • Falta de micropausas o silencios reales
  • Inexistencia de muletillas o errores espontáneos
  • Una voz demasiado uniforme, sin variaciones

"Cuando se ve el espectrograma, que es el gráfico de ondas, al realizar zoom en el análisis, se encuentran estas micro variaciones, que es la normalidad de nuestra voz, pero cuando es una voz artificial está mucho más, por así decirlo, suavizado", refirió.

Plataformas online, bajo cuestionamiento

En paralelo, Vourliotis cuestionó el uso de herramientas digitales que prometen detectar audios generados por inteligencia artificial. Según afirmó, estas plataformas no cuentan con validación científica ni aceptación en ámbitos judiciales.

"Funcionan como una caja negra. Uno carga el audio, recibe un resultado, pero no sabe qué proceso se utilizó. Eso no es válido en un análisis pericial", sostuvo.

Limitaciones en guaraní y español paraguayo

Un punto llamativo que destacó el especialista es que la inteligencia artificial aún presenta dificultades para replicar fielmente idiomas como el guaraní o variantes locales del español.

"La IA, por ahora, no habla correctamente guaraní ni español paraguayo", alertó. Sin embargo, dijo que puede intentar imitar, pero aparecen errores y no logra reproducir patrones naturales como la respiración o las pausas. Incluso en sistemas más avanzados, donde se entrena la voz a partir de grabaciones reales, persisten diferencias detectables en el análisis técnico.  "Y ahí podría ser que perceptivamente la prosodia sea un poco parecida. Pero no se va a encontrar micropausas, no se va a encontrar los silencios de respiración, va a haber una variabilidad grande en lo que es el análisis de los parámetros de la voz", aclaró.

Un desafío sin regulación

El avance de estas tecnologías también plantea un vacío legal. Vourliotis alertó que actualmente no existe una normativa específica en Paraguay que regule el uso de inteligencia artificial para la clonación de voces. "Es un fenómeno relativamente nuevo y todavía está en desarrollo, tanto a nivel local como internacional", indicó.
Recomendaciones ante el avance de la IA

Ante este escenario, el especialista recomendó extremar cuidados con los datos personales, especialmente los audios, ya que pueden ser utilizados para entrenar sistemas de inteligencia artificial. Asimismo, sugirió que, en caso de dudas sobre la autenticidad de un audio, se recurra a profesionales que puedan realizar un análisis técnico y comparativo de voces.

Aunque la inteligencia artificial avanza rápidamente y facilita la creación de audios cada vez más convincentes, detectar su uso sigue siendo posible, pero únicamente a través de métodos técnicos y especializados.

El mensaje del experto es claro: no todo lo que circula puede tomarse como real, y en el contexto de audios que involucran a figuras públicas como el senador Javier Vera, el análisis profesional es clave para distinguir la verdad de la manipulación digital.