Proyecto

Análisis automatizado de comentarios de estudiantes a evaluaciones de cursos y docentes

Los comentarios de las encuestas de los cursos poseen información orgánica y honesta sobre la calidad de los cursos y el docente.

Esta información no es capturada por las preguntas cerradas de la encuesta y, dada su calidad de texto libre, es información no estructurada que en general no se utiliza de manera sistemática ni cuantitativa por parte de la Universidad con la cual se desarrolló este proyecto.

El objetivo de este proyecto fue aplicar metodologías de procesamiento de lenguaje natural (NLP), aprendizaje de máquinas y minería de datos a los comentarios de texto libre de las evaluaciones de cursos y docentes de una Universidad para clasificar de manera automática los comentarios de acuerdo con su grado de polaridad (positivo-negativo) y de acuerdo con dimensiones y aspectos de la pedagogía tratados. En adición, se implementaron modelos de tópicos para analizar los temas que tratan los estudiantes en sus comentarios. Lo primero permite generar indicadores cuantitativos de la calidad de los cursos y docentes para diferentes dimensiones relevantes de la enseñanza y retroalimentar a los docentes y ajustar los cursos de acuerdo con tales indicadores. Lo segundo permite identificar temas recurrentes que los estudiantes tratan en sus comentarios de texto libre y que no son tenidos en cuenta en la parte cerrada de la encuesta por lo que no se generan métricas cuantitativas de tales dimensiones.

Enfoque

Se trabajó con cerca de 7.000 comentarios realizados por estudiantes a cursos y docentes durante un año. De estos, se marcaron manualmente 2.000 registros indicando su polaridad (positivo-negativo en una escala de 0 a 3) y se clasificaron los comentarios en 20 categorías predefinidas no mutuamente excluyentes, correspondientes a los aspectos de la enseñanza tratados en cada uno. Esto se relizó en conjunto con la Facultad de Educación de la Universidad. Los textos fueron preprocesados y los modelos de tópicos fueron construidos utilizando Latent Dirichlet Allocation (LDA). Se vectorizaron los textos usando Bag of Words y LDA, y se entrenaron metodologías de aprendizaje de máquinas (Naive Bayes, Logit, SVM, Boosting de árboles) evaluando su capacidad predictiva para escoger el mejor modelo.

Resultados

Automatización para la clasificación de los comentarios de acuerdo con su grado de polaridad (positivo-negativo). Generación de indicadores cuantitativos de la calidad de los cursos y docentes para diferentes dimensiones relevantes de la enseñanza e identificación temas recurrentes que los estudiantes tratan en sus comentarios de texto libre.