Proyecto de investigación: “Comparación entre Evaluación Humana y Evaluación con Inteligencia Artificial en Congresos de Investigación Educativa ''
Investigadores:
Investigadora principal:
Dra. Aura López de Ramos (CIEDU AIP)
Co-investigadores:
Dra. Belka Bonnett-Bogallo (UIP)
Mgtr. Dimas Concepción (UTP / CIEDU AIP)
Dr. Gustavo Quintero-Barreto (UTP / CIEDU AIP)
Dr. Jarles Durán (UPEL / UNICyT)
Dra. Nelly Meléndez (UMA / UNICyT / CIEDU AIP)
Dra. Yuly Esteves (UPEL / UNICyT)
Fechas: Enero a diciembre 2025
Contexto: En el contexto de los congresos científicos, el proceso de arbitraje por pares es crucial para garantizar la calidad de los trabajos aceptados. Sin embargo, este proceso enfrenta desafíos como la sobrecarga de revisores, posibles sesgos y lentitud. Con el auge de modelos de lenguaje basados en inteligencia artificial (IA), se ha planteado su potencial como herramienta complementaria o alternativa en la evaluación académica.
Antecedentes: Estudios recientes han demostrado que la IA puede contribuir significativamente a tareas de revisión inicial, selección de revisores y detección de errores formales. No obstante, existen discrepancias en su rendimiento al evaluar criterios conceptuales o metodológicos (Meléndez et al., 2023; Jiang, 2024; Farber, 2024). El presente estudio se basó en una muestra de 50 resúmenes enviados al II Congreso de Investigación Educativa COIE-CIEDU 2024, evaluados por dos expertos humanos y por ChatGPT-4o, utilizando la misma rúbrica.
Justificación: Ante el creciente interés por automatizar procesos en la gestión científica, es crucial estudiar las diferencias entre las valoraciones humanas y aquellas generadas por IA. Esta comparación permitirá conocer los límites actuales de la IA y proponer formas de calibrarla adecuadamente para garantizar equidad, transparencia y calidad en el arbitraje académico.

El estudio contribuirá al debate sobre el rol de la IA en la evaluación académica, ofreciendo datos empíricos sobre su fiabilidad comparada con la evaluación humana. Se espera generar recomendaciones para su implementación ética y responsable en contextos científicos, así como impulsar mejoras en los algoritmos de evaluación automatizada.
Objetivo General
Comparar las evaluaciones realizadas por expertos humanos con las generadas por una inteligencia artificial en el arbitraje de resúmenes científicos.
Objetivos Específicos
1. Analizar la consistencia entre las evaluaciones humanas.
2. Determinar las diferencias estadísticas entre la IA y los expertos.
3. Identificar fortalezas y limitaciones del uso de IA en procesos de revisión académica.
4. Proponer recomendaciones para el uso responsable de la IA en arbitraje científico.