Bit - loader

Machine Learning y sus prometedoras soluciones


Netmind - Machine Learning y sus prometedoras soluciones    Artículo | Microsoft Azure
Xavier Saladié | 28/12/17

Ya he hablado por aquí anteriormente de Machine Learning y de sus prometedoras soluciones, pero de un tiempo a esta parte, me ha dado por pensar que sucedería si me pasaran a mí por un algoritmo de ML.

Soy raro, lo sé.

Soy de los que cuando ve un STOP hace un STOP y no un Ceda el Paso. De los que, cuando viaja, llega al aeropuerto 3 horas antes para un vuelo transoceánico, reserva su asiento tan pronto como puede, memoriza su código de confirmación por si acaso, y lleva las tarjetas de embarque impresas de casa y todos los bonos de viaje por duplicado. De los que no toma postre ni café y que pide la cuenta cuando el camarero recoge los segundos. Y los de mis sitios favoritos ya me conocen y no ponen cara de sorprendidos.

Parece seguro que para un algoritmo de ML yo sería esencialmente ruido.

Está claro que los algoritmos de ML están preparados (o son configurables) para eliminar el ruido generado por una o varias anomalías, la cuestión es, ¿cuándo deja de considerarse ruido y pasa a ser relevante?

 

Machine Learning y sus prometedoras soluciones 0

 

Quiero decir que está claro que un 3% es ruido, pero ¿y un 5%?, ¿y un 10%?, ¿dónde está el punto de corte? Si los algoritmos de ML aprenden las características comunes, descartando y despreciando las no comunes, ¿cuándo algo no común pasa a ser común o, mejor dicho, relevante?

 

Machine Learning y sus prometedoras soluciones 1

 

La dificultad pasa por interpretar cada dato en su contexto y esto puede provocar que un conjunto de anomalías diseñadas especialmente a tal efecto, puedan causar en el análisis que hace ML, una distorsión que provoque que el resultado obtenido sea, no solo irrelevante sino incluso contrario a las conclusiones que se obtendrían sin el efecto ruido.

Pongámoslo en perspectiva fijándonos por ejemplo en una compañía de seguros. El cálculo de las primas de sus pólizas se hace en base a la siniestralidad prevista de cada cliente. Para ello se vale de diferentes tipologías de datos, por ejemplo, el historial de siniestros que tiene en su poder, un análisis en el que documenta los factores que son más determinantes para la siniestralidad experimentada, etc. Finalmente, aplica ese análisis a los valores de cada nuevo cliente para determinar su factor de riesgo y, por tanto, el valor de la prima para cubrirlo.

La pregunta es: ¿Qué sucede cuando un conductor de un coche marca X de color beige metalizado con más de 10 años de antigüedad en el carnet de conducir, casado, …  tiene 3 accidentes seguidos en el plazo de menos de un mes? La respuesta en su cuota está clarísima, probablemente le incrementarán la cuota en cuanto renueve, pero ¿qué impacto tendría esta siniestralidad sobre mi póliza en el caso de que yo tuviera un coche de las mismas características que el siniestrado?

Si alguien es capaz de identificar un patrón para generar ese tipo de ruido en los datos en base a los que se toman decisiones, el resultado obtenido puede ser muy distinto al esperado y tremendamente difícil de detectar.

Y entonces, ¿cómo podemos protegernos? Pues la solución es a la vez sencilla y complicada, básicamente porque la única posibilidad es verificar con sumo detalle las conclusiones extraídas después del análisis, asegurándonos con una validación en profundidad que todo está en orden.

Si después de esto os pica la curiosidad por probar ML, podéis hacerlo desde aquí (recordad que para la versión Free no es necesaria ninguna subscripción a Azure aunque tiene algunas restricciones).

 


Xavier Saladié


Entradas relacionadas

Cursos relacionados
Nuestro sitio utiliza cookies para análisis. Si no estás seguro de ello, echa un vistazo a nuestra política de privacidad.