Estudio del impacto de los ataques antagónicos, en concreto el envenenamiento de datos y los ataques de evasión, sobre los modelos de aprendizaje automático para la gestión de patrimonio. Para ello, se ha analizado el umbral de perturbación o envenenamiento de datos necesario para desestabilizar el rendimiento del modelo durante el entrenamiento y las pruebas.
Resumen del proyecto
Resumen del proyecto
Este proyecto investiga las vulnerabilidades de los modelos de aprendizaje automático en los procesos de toma de decisiones financieras, especialmente en los casos de aprendizaje automático antagónico tal y como lo define la nueva taxonomía del NIST. Los principales aspectos estudiados son los siguientes:
- Ataques de envenenamiento de datos: manipulación de los datos de entrenamiento para degradar la precisión del modelo o provocar errores específicos.
- Ataques de evasión: introducción de ejemplos antagónicos durante la implementación para influir en las predicciones del modelo.
El proyecto consiste en el entrenamiento de dos modelos, uno en un conjunto de datos limpio y otro en un conjunto de datos envenenado, con el objetivo de medir el nivel mínimo de corrupción que se necesita para provocar una pérdida estadísticamente significativa en el rendimiento.
Objeto del proyecto
Objeto del proyecto
El objetivo del proyecto es demostrar la sensibilidad de los modelos de aprendizaje automático a la manipulación. Busca ofrecer respuestas a las inquietudes sobre la robustez y fiabilidad de los sistemas de IA para la gestión de patrimonio, en un contexto donde las técnicas de IA antagónica son cada vez más frecuentes.
Es importante destacar que este proyecto pone de manifiesto que la seguridad del aprendizaje automático suele ser un aspecto secundario en el diseño y la construcción de los modelos. Para que estos puedan implementarse con seguridad y fiabilidad, es fundamental sensibilizar a los usuarios sobre los riesgos que presentan las tecnologías sensibles.
Información técnica
Información técnica
Conjunto de datos: conjunto de datos de evaluación de riesgos financieros de Kaggle (15.000 registros).
Herramientas y software: Python, marcos de aprendizaje automático (TensorFlow, PyTorch) y herramientas de análisis estadístico.
Metodología: los experimentos se centran en los siguientes aspectos (según se describen en la taxonomía del NIST):
- Envenenamiento de datos durante el entrenamiento.
- Ataques de evasión durante las pruebas.
- Medición de la degradación del rendimiento del modelo a partir de métricas clave.
Retos y soluciones
Retos y soluciones
La identificación del tipo y volumen óptimo de la corrupción de datos supuso un desafío importante. Se realizaron experimentos iterativos a pequeña escala que ayudaron a ajustar la estrategia de envenenamiento. Uno de los hallazgos más interesantes fue el descubrimiento de que los ataques de envenenamiento precisos y con objetivos concretos tenían un impacto muy superior al de los de corrupción aleatoria. Además, para que las muestras de evasión generadas fueran efectivas, hubo que ajustar los parámetros de perturbación de forma que estas quedaran encubiertas y fueran clasificadas erróneamente.
Colaboración y trabajo en equipo
Colaboración y trabajo en equipo
Aunque se trataba de un proyecto individual, las aportaciones de los compañeros y mentores fueron de gran ayuda. Estas dieron lugar a conversaciones que permitieron mejorar la identificación y la metodología inicial, y que también sirvieron para alinear el proyecto con el marco propuesto.
Aprendizajes y conclusiones
Aprendizajes y conclusiones
Entre los aprendizajes clave del proyecto podemos mencionar el conocimiento profundo de las técnicas antagónicas y el descubrimiento de lo importante que es evaluar la robustez de la IA en condiciones antagónicas. Se han adquirido habilidades de manipulación de conjuntos de datos, de evaluación de modelos y de creación de ataques antagónicos. Además, este proyecto ha puesto de manifiesto lo importante que es integrar proactivamente aspectos de seguridad en todas las etapas del ciclo de vida del aprendizaje automático.
Desarrollo futuro
Desarrollo futuro
En trabajos posteriores, se buscará automatizar los procesos de envenenamiento con técnicas de aprendizaje por refuerzo que permitan identificar los umbrales óptimos de corrupción. También está previsto ampliar el estudio para incluir medidas defensivas contra los ataques antagónicos, lo que permitiría tener una visión más completa de la robustez de la IA.
Información adicional
Información adicional
El proyecto se estructura en tres etapas:
- Desarrollo de un modelo de referencia (primer borrador).
- Implementación y refinamiento de métodos de ataque antagónico (segundo borrador).
- Conclusiones sobre los niveles óptimos de corrupción (borrador final).