Signa Lab ITESO, encargada por el Instituto Nacional Electoral para seleccionar las preguntas realizadas por la ciudadanía para el debate entre las candidatas a la presidencia de la República, entregó ya a la autoridad electoral los 108 cuestionamientos seleccionados por frecuencia y aleatoriedad que derivaron de 24 mil preguntas colectadas a través de una plataforma digital.
Durante la entrega de la memoria USB con la información en un sobre cerrado, Carla Humphrey Jordán, presidenta de la Comisión Temporal de Debates del INE, explicó que la metodología elegida se aplicó a cabalidad en este proceso, además de que en todo momento existió el seguimiento, vigilancia y certificación de la Oficialía de Partes del Instituto; señaló que las preguntas serán entregadas el próximo miércoles 3 de abril a los moderadores del debate presidencial que se realizará el 7 de abril.
“Es muy importante mencionar que las candidatas y el candidato no conocerán estas preguntas hasta el debate, ese es otro paso en la metodología. Con esto estamos cerrando esta etapa de recibir estas preguntas de una institución con todo el reconocimiento, como es el ITESO”, dijo.
Catalina Morfín López, directora general académica del ITESO, afirmó que esta universidad cumplió cabalmente con los principios de transparencia, legalidad y certeza que exigía el trabajo encomendado.
“Nos alienta dar un paso, aunque sea pequeño, en la colaboración que debe existir e incrementarse día a día entre las distintas instituciones, organizaciones y grupos, con el propósito de dejar de lado la pretensión de que alguna visión de la vida es la única legítima, y de esta manera nos comprometemos con la comprensión empática, inteligente y dialogante entre las distintas posiciones, tanto políticas como ideológicas”, dijo.
Lee también Denise Maerker y Manuel López San Martín deberán escoger 30 preguntas para el debate presidencial
El trabajo de Signa Lab consistió en la preparación y depuración de la base de datos en Excel, entregada el pasado 22 de marzo por el INE, con las 24 mil preguntas que el Instituto recolectó en su sitio web durante el mes que duró la convocatoria y en la obtención de la muestra estratificada y clasificada por región.
La base de datos fue transportada a Guadalajara, donde, bajo la supervisión de expertos en ciberseguridad del ITESO, se descargó en sistemas aislados de la red, para que Signa Lab ITESO aplicara un análisis de datos a partir de los temas previstos del debate: Educación y salud; Transparencia y combate a la corrupción; No discriminación; Grupos vulnerables, y Violencia contra las mujeres.
En la primera etapa se depuró la base de datos a través del desarrollo de un diccionario de 519 términos proscritos que ayudaron a identificar preguntas con términos ofensivos o sesgos políticos; así se eliminaron mil 117 preguntas.
Después se utilizó un código informático para detectar preguntas con redacción idéntica y catalogarlas como repetidas y se encontraron mil 664 preguntas duplicadas que fueron descartadas.
En la segunda etapa se obtuvo una muestra estratificada a partir de los criterios en los que se basó el formulario del INE: temático y territorial.
Lee también Tras reclamos de Morena, coordinadora del ITESO se retira del primer debate presidencial
Para ello Signa Lab ITESO implementó una fórmula estadística que arrojó una muestra estratificada por tema y región compuesta por mil 701 preguntas.
Para la tercera etapa se llevó a cabo un ejercicio con herramientas de inteligencia artificial y de lingüística de corpus; el proceso incluyó el desarrollo de un algoritmo que permitió la identificación de similitud semántica entre las preguntas de la muestra estratificada.
Este algoritmo analizó mil 24 dimensiones dentro de cada pregunta y, a partir de ello, las agrupó en clústeres por sus similitudes; como resultado se extrajeron 18 preguntas preseleccionadas por frecuencia y 90 preguntas preseleccionadas aleatoriamente.
Finalmente, en la cuarta etapa, se realizó una revisión manual de las 108 preguntas seleccionadas: durante la primera ronda de revisión se identificaron 28 preguntas con errores de coherencia argumentativa, de sintaxis, de neutralidad y/o de pertinencia temática, características que están señaladas como criterios de invalidación en la metodología del INE, por lo que se procedió a su reemplazo por otras de la muestra preexistente —estos reemplazos no se debieron al proceso de depuración, sino a errores de origen en el propio registro de la ciudadanía—.
En la revisión subsiguiente de las nuevas 28 preguntas, 11 siguieron incluyendo criterios de invalidez; en el tercer y cuarto ejercicio de revisión se eliminaron dos preguntas y una pregunta, respectivamente, por contener alguna de estas cualidades.
afcl/ll