La tecnología ha avanzado a pasos agigantados en los últimos años, mejorando en diversas áreas como la conectividad gracias a las redes 5G , impresión en 3D, Deep Learning y claro, Inteligencia Artificial , misma que puede ser utilizada en diversos ámbitos del quehacer humano, tanto para beneficio de las personas como al contrario.

Este caso en especial es visible en la manipulación de videos, conocidos como deepfakes y que básicamente son videos manipulados de diversas personas, en los que se les escucha dar declaraciones que realmente nunca mencionaron, con un nivel visual y auditivo aceptable de realismo.

Este tipo de contenido multimedia representa un problema para compañías como Facebook , debido a que es muy difícil de detectar. Prueba de ello es la IA de SenseTime, misma que puede crear deepfakes realistas.

A fines de 2019, los investigadores de Hyperconnect , con sede en Seúl, desarrollaron una herramienta ( MarioNETte ) que podía manipular las características faciales de una figura histórica, un político o un CEO usando nada más que una cámara web e imágenes fijas.

Más recientemente, un equipo de SenseTIme propuso un método para editar imágenes de retratos de destino tomando secuencias de audio para sintetizar videos fotorrealistas. A diferencia de MarioNETte , la técnica de SenseTime es dinámica, lo que significa que puede manejar mejor los medios para la creación de los videos. Los resultados son impresionantes, aunque preocupantes a la luz de los recientes desarrollos relacionados con las falsificaciones de contenido audiovidual.

Los coautores del estudio señalan que la tarea de la traducción que no asume una identidad única del video fuente y el video objetivo , es un desafío. Por lo general, solo hay un escaso número de videos disponibles para entrenar un sistema de inteligencia artificial , y cualquier método tiene que hacer frente a grandes variaciones de audio y video.

Para superar estos desafíos, el enfoque del equipo utiliza el espacio de parámetros de expresión, o los valores relacionados con las características faciales establecidas antes de que comience el entrenamiento, como el espacio objetivo para el mapeo de audio a video. Esto ayuda al sistema a aprender el mapeo de manera más efectiva, ya que las expresiones son más relevantes semánticamente para la fuente de audio y manipulables al generar parámetros a través de algoritmos de aprendizaje automático.

En el marco de los investigadores, los parámetros de expresión generados, combinados con los parámetros de geometría y pose de la persona objetivo, permiten la reconstrucción de una malla facial tridimensional con la misma identidad y pose de cabeza que el objetivo pero con movimientos de labios que coinciden con los fonemas de audio de origen.

Un componente especializado mantiene la traducción de audio a expresión independiente de la identidad de la fuente de audio, haciendo que la traducción sea robusta frente a las variaciones en las voces de diferentes personas y la fuente de audio.

Asimismo, el sistema extrae características, puntos de referencia, de la región de la boca de la persona para garantizar que cada movimiento se mapee con precisión, primero representándolos como mapas de calor y luego combinando los mapas de calor con cuadros en el video fuente, tomando como entrada los mapas de calor y cuadros para completar un región de la boca.

De acuerdo con los investigadores, un estudio encargó a 100 voluntarios evaluar el realismo de 168 videoclips , la mitad de los cuales fueron sintetizados por el sistema, los videos sintetizados fueron etiquetados como "reales" el 55% del tiempo.

Atribuyen esto a la capacidad superior de su sistema para capturar los dientes y los detalles de la textura de la cara, así como a características como las esquinas de la boca y los pliegues nasolabiales.

Asimismo, los investigadores reconocen que su sistema podría ser mal utilizado o abusado para "diversos fines malévolos", como la manipulación de los medios de comunicación o la "difusión de propaganda maliciosa". Como remedios, sugieren "medidas de protección" y la promulgación y aplicación de la legislación para ordenar que los videos editados sean etiquetados como tal.

"Al estar a la vanguardia del desarrollo de tecnologías creativas e innovadoras, nos esforzamos por desarrollar metodologías para detectar videos editados como una contramedida", escribieron. “También alentamos al público a que sirva como centinelas para reportar cualquier video sospechoso a las [autoridades]. Trabajando juntos, podremos promover tecnologías innovadoras y de vanguardia sin comprometer el interés personal del público en general ".

Desafortunadamente, parece poco probable que esas propuestas detengan la avalancha de falsificaciones profundas generadas por la IA como las descritas anteriormente. La startup de ciberseguridad con sede en Ámsterdam Deeptrace encontró 14 mil 698 videos falsos en Internet durante su recuento más reciente en junio y julio, en comparación con 7 mil 964 en diciembre pasado: un aumento del 84% en solo siete meses.

Dicha cifra es preocupante no solo porque las falsificaciones profundas podrían usarse para influir en la opinión pública durante, por ejemplo, una elección, o para implicar a alguien en un delito que no cometieron, sino porque la tecnología ya ha generado material pornográfico y estafado a las empresas de cientos de millones de dolares.

En un intento por combatir la propagación de los deepfakes, Facebook , junto con Amazon Web Services (AWS), Microsoft , Partnership on AI y académicos de Cornell Tech; MIT Universidad de Oxford; UC Berkeley; Universidad de Maryland, College Park; y la Universidad Estatal de Nueva York en Albany, encabezan el Deepfake Detection Challenge, el cual fue anunciado en septiembre.

El lanzamiento del desafío en diciembre se produjo después del lanzamiento de un gran corpus de falsificaciones visuales producidas en colaboración con Jigsaw, la incubadora de tecnología interna de Google, que se incorporó a un punto de referencia disponible gratuitamente para los investigadores para el desarrollo del sistema de detección de video sintético.

A principios de año , Google hizo público un conjunto de datos de discurso que contiene frases pronunciadas por los modelos de texto a voz de la compañía, como parte de la competencia AVspoof 2019 para desarrollar sistemas que puedan distinguir entre el habla real y la generada por computadora.

Si quieres conocer más noticias de tecnología da clic

.

Google News

TEMAS RELACIONADOS

Noticias según tus intereses