MINERÍA DE DATOS

El aprendizaje de máquinas es un método de análisis de datos que busca automatizar la generación de modelos predictivos. Usando algoritmos matemáticos que aprenden de los datos disponibles, el aprendizaje de máquinas le permite a los computadores encontrar patrones sutiles u ocultos en los datos sin necesidad de programarlos explícitamente para encontrarlos.

Apoyándose en su destacado capital humano, Quantil ofrece el diseño, implementación y evaluación de estos algoritmos para explotar una diversidad de fuentes de datos; incluyendo bases de datos, datos incrementales o en línea, imágenes, audios y diversas fuentes de texto. Nuestras implementaciones suelen estar acompañadas de herramientas interactivas para que nuestros clientes puedan utilizar los modelos en su operación.

Algunas de nuestras implementaciones de algoritmos de clasificación incluyen un modelo de predicción del éxito de demandas contra el estado (ANDJE), clasificación de sentimiento sobre marcas usando datos de redes sociales (Y&R) y sistema de generación de alertas sobre riesgo de fracaso en cursos universitarios (Universidad de Los Andes).

Curva de calibración.

Correlogramas condicionales para ejercicio de alertas académicas.

La segmentación o clustering son la esencia del análisis multivariado. El análisis de segmentación busca asignar las observaciones de un conjunto de datos en grupos dependiendo de asociaciones naturales entre ellas. Adicionalmente, permite caracterizar cada uno de estos grupos y asignar observaciones nuevas entre ellos.

Algunas aplicaciones canónicas son agrupar clientes potenciales de acuerdo a múltiples variables para el diseño de estrategias comerciales, clasificar usuarios para diseñar sistemas de recomendación y entender asociaciones entre productos comprados juntos con frecuencia en canastas. En Quantil hemos implementado diferentes modelos de segmentación como K-medias, mixturas gaussianas y reglas de asociación, para tareas diversas como la detección de SARLAFT, diseño de campañas de mercadeo y procesamiento de lenguaje. Nuestros modelos suelen estar acompañados de software que permite su uso diario e integración con la operación de nuestros clientes.

Dendograma de un clúster jerárquico.

Gráfico de los dos componentes principales y los clústers encontrados.

Una de las fuentes de datos más voluminosas y desaprovechadas en la era de los datos es el texto, especialmente el texto no estructurado como el que se encuentra en publicaciones de redes sociales, páginas web o reportes en texto libre. La minería de texto es el conjunto de algoritmos que permiten procesar y entender automáticamente textos, comprender y analizar su contenido, y utilizar el texto como insumo para otros modelos.

Entre las aplicaciones de minería de texto en las que Quantil tiene más experiencia se cuentan el análisis de sentimiento sobre datos de redes sociales (Facebook, Twitter y Blogs), clasificación automática de documentos en categorías, modelos de tópicos basados en modelos de espacio latente, priorización de emails (Contact Center), perfilamiento de votantes potenciales usando redes sociales (Partido de la U). Apalancándonos en nuestro departamento de Tecnología e Información, nuestros modelos suelen estar acompañados de software que permite su integración con la operación de los clientes y visualizaciones relevantes.

En Quantil también realizamos investigación en procesamiento de lenguaje natural (NLP); la rama de la inteligencia artificial que busca que los computadores entiendan el lenguaje humano. Nuestros investigadores han trabajado en la creación de perfil de autores en redes sociales, determinando características demográficas de autores desconocidos a partir de sus textos anonimizados, al igual que diversas publicaciones en aplicaciones de modelos de tópicos para herramientas académicas y políticas. Actualmente, investigan el procesamiento de textos médicos, con el objetivo de identificar la mención de trastornos en los documentos clínicos. En 2013 participaron en la conferencia CLEF y ahora preparan su participación para SemEval 2014, ambas reconocidas conferencias internacionales en los ámbitos de análisis semántico y recuperación de información.

Al tener en cuenta todas las variables ¿Qué datos son atípicos o anormales? La detección de atipicidades tiene un amplio rango de aplicaciones: desde el diagnóstico médico, pasando por la detección de fraude en exámenes estandarizados y hasta la detección de lavado de activos y evasión de impuestos. Existen grandes diferencias entre los casos, pero algunos principios matemáticos permiten definir metodologías comunes para todos.

Entre las implementaciones de detección de anomalías en las que Quantil tiene experiencia están el desarrollo de medidas conocidas como ‘entropía relativa’ que permiten identificar observaciones anómalas aunque sean ‘normales’ en cada una de las variables. También hemos implementado detección de anomalías utilizando modelos de clustering y construyendo medidas que permiten identificar observaciones lejanas a cualquier clúster. Adicionalmente, tenemos experiencia en modelos que analizan la distribución estadística de los dígitos de cantidades nuḿericas en bases de datos, estas técnicas conocidas como Análisis Digital están basadas en conocimiento empírico matemático como la Ley de Benford o la Ley de Bebber y Scacco.

Algunos de los clientes más destacados para los que hemos implementado soluciones de Detección de Anomalías son el Ministerio de Salud Colombiano, la Fundación Valle del Lili, el Banco de la Mujer y la Unidad de Inteligencia y Análisis Financiero (UIAF).

Cuando los datos no tienen una variable objetivo de interés claramente definida el tipo de análisis que se puede llevar a cabo se denomina Análisis no Supervisado. En este caso, el objetivo del análisis es encontrar patrones existentes entre los datos, caracterizar las observaciones en grupos o encontrar relaciones para construir redes y analizarlas posteriormente.

Algunas de las técnicas de Análisis no Supervisado en las que Quantil tiene experiencia son segmentación automática, reglas de asociación, cadenas de Markov Ocultas para extracción de elementos de interés en texto libre, reducción de dimensionalidad mediante modelos de espacio latente, entre otros. Estos algoritmos suelen estar acompañados de herramientas de software que permiten su integración con la operación del cliente y que cuentan con visualizaciones relevantes e interactivas que facilitan la representación y el análisis de los datos.

Reglas de asociación

Word Embeddings

HOJA DE VIDA