Proyecto

Identificación del lenguaje tóxico en redes sociales

Este estudio aplica técnicas modernas de estadística para analizar la violencia digital en redes sociales. Más precisamente, se definen dos temas que hayan generado polémica, para analizar el tono del lenguaje usado por participantes en redes sociales. En adición, se plantean técnicas para identificar actividades provocadoras y para clasificar a los usuarios según su anonimidad, visibilidad, y factibilidad de ser un “bot”. Finalmente, se construyen redes dirigidas a partir de conversaciones en Twitter relacionadas con estos dos temas para analizar las interacciones de los participantes.

Enfoque

Principalmente, el estudio ayuda a corroborar la premisa de que el análisis matemático puede ser una herramienta valiosa para el análisis de interacciones entre usuarios de redes sociales. Aunque el alcance del estudio no permite generalizar, en el ámbito de los casos estudiados se observa: (i) entre más diversa la discusión, menos tóxica la interacción; (ii) comentarios a noticias son más tóxicos que Tweets; (iii) hay más usuarios no tóxicos que tóxicos, pero la toxicidad no se concentra en pocos usuarios; (iv) el uso de hashtags, ser un usuario visible y tener foto de perfil se asocia con mensajes menos tóxicos; (v) se presentan más mensajes tóxicos de hombres a mujeres que al revés; (vi) la audiencia es pasiva a la hora de tratar de calmar discusiones agresivas.

Para los dos casos de estudio seleccionados (“Grupo Político” y “Violencia de Género en Ámbitos Digitales”) se recolectaron 69,717 tweets, y 10,400 comentarios históricos de los portales de los principales medios digitales del país. Adicionalmente, se extrajo la información (id, número de seguidores, seguidos, favoritos, entre otros) de 35,919 usuarios de Twitter que participaron en las conversaciones de los temas de interés.

Para este ejercicio, se marcaron 1500 tweets y 500 comentarios para cada caso. Las marcaciones se realizaron de manera manual entre tres categorías: toxicidad, provocación y calma. Posteriormente, se entrenaron distintos modelos de clasificación como regresión logística, Naive Bayes, Boosted Trees y Support Vector Machines con kernel lineal y se predijo el nivel de toxicidad, provocación y calma para cada mensaje en la base de datos. Debido a la ambigüedad en la definición y marcación del nivel de provocación, los modelos alcanzan un máximo de 0.76 de área bajo la curva ROC para el mejor modelo. La característica de “provocación” fue la más difícil de clasificar alcanzando un área máxima de 0.66.

Para enriquecer el análisis, se identificaron usuarios anónimos, usuarios visibles en la conversación y cuentas automatizadas (“bots”). Se tomaron distintas características de los perfiles de los usuarios de Twitter para segmentarlos en distintos grupos utilizando un algoritmo de k-medias. Por ejemplo, para identificar a los usuarios anónimos se utilizaron las variables que indican si la cuenta es verificada, si el nombre utilizado tienen un género definido, si tiene habilitado el sistema de georreferenciación y si ha cambiado la imagen original de su perfil. Una vez se identifican los grupos, se les asigna manualmente a cada uno una calificación de anonimidad según las variables de cada grupo.

Resultados

El análisis permite identificar dinámicas de las conversaciones de forma cuantitativa, en cuatro dimensiones definidas por el MinTIC: Contexto, Emisor, Receptor y Audiencia. Algunos resultados a resaltar son los siguientes:

Contexto: Se observa más toxicidad en comentarios a noticias que en tweets, entre más diversa la discusión, menos tóxica la interacción y el comportamiento de las redes asociadas a cada caso de estudio es distinto: parece poder asociarse a una dinámica de debate público en el caso del Grupo Político, y de acoso conversacional en el caso de violencia de género en ámbitos digitales.

Emisor: Hay más usuarios no tóxicos que tóxicos y los comentarios s tóxicos tienden a utilizar más signos de exclamación y mayúsculas, y menos hashtags. Además, los usuarios visibles tienden a ser menos tóxicos.

Receptor: Se observan más mensajes tóxicos de hombres a mujeres que de mujeres a hombres, y de hombres a hombres que de mujeres a mujeres. También vemos que los usuarios más atacados son más centrales en la red.

Audiencia: Se evidencian muy pocos mensajes de calma. Además, los mensajes más tóxicos en promedio exhiben menos retweets, pero la diferencia con mensajes no tóxicos es pequeña. También vemos que los momentos más tóxicos de conversaciones fueron seguidos por momentos con poca interacción entre usuarios.

Otros proyectos

En Proyectos, podrás conocer las aplicaciones reales de nuestros servicios, casos de uso y ejemplos de los mismos.

Pensiones1

Diseño Contractual para la Gestión del FONPET

Energia_electrica

Riesgo Sistémico de la Oferta de Energía Eléctrica

planes-desarrollo1

Logística de inventarios – Transporte Multimodal

transporte_multimodal1

Planes Integrados de Desarrollo

estrategia_de_deuda_banner

El Ministerio de Hacienda y Crédito Público (MHCP) define una estrategia de Gestión de Deuda de Mediano Plazo (EGDMP)

reportes

Modelo de Asset Allocation en empresa de seguros