Sara Domingo es compañera, amiga y parte de nuestro selecto EDPV (“Expertos en Data Protection de Valladolid”).
Además está especializada en la aplicación del RIA en materia de inteligencia artificial pero de verdad: lleva trabajando en esto bastante tiempo por toda Europa.
Sara colabora con nosotros no sólo (i) en la cata de los mejores restaurantes de Valladolid sino también (y más importante) (ii) impartiendo formación sobre la aplicación del Reglamento de Inteligencia Artificial. Si te interesa, puedes preinscribirte para la próxima edición post-Semana Santa en formacion(arroba)jorgegarciaherrero.com.
El 18 de diciembre de 2024, el Comité Europeo de Protección de Datos (“EDPB”) emitió una de sus opiniones más esperadas: la “Opinión 28/2024 sobre ciertos aspectos de protección de datos relacionados con el tratamiento de datos personales en el contexto de los modelos de IA” (la “Opinión”).
Esta Opinión ha sido largamente esperada por abogados y profesionales de la protección de datos, empresas de IA y entidades del sector público y privado que implementan IA, quienes han debido afrontar la complejidad del tratamiento de datos personales en sistemas de IA con escasa orientación por parte de las autoridades.
La Opinión responde a una solicitud realizada por la Comisión de Protección de Datos de Irlanda en septiembre pasado, conforme al artículo 64(2) del RGPD, el cual permite a una autoridad de control (“AC”) solicitar que el EDPB examine cualquier cuestión de aplicación general o que tenga efectos en más de un Estado miembro. Con esta Opinión, el EDPB busca establecer un enfoque armonizado para el tratamiento de datos personales por modelos de IA, el cual se espera que sea adoptado por otras ACs. Esto resulta particularmente relevante dado que la Opinión se aparta significativamente de la postura adoptada por el Comisionado de Protección de Datos de Hamburgo en un documento publicado en julio de 2024.
La Opinión comprende los siguientes temas:
Si los modelos de IA pueden considerarse siempre “anónimos” bajo el RGPD.
Cómo puede aplicarse lícitamente la base jurídica de intereses legítimos en las fases de desarrollo y despliegue de un modelo de IA.
Cuáles son las consecuencias de que un modelo de IA haya sido entrenado ilícitamente cuando (i) es desplegado por el mismo responsable del tratamiento que lo desarrolló (incluyendo su entrenamiento) y (ii) cuando es desplegado por un tercero.
En este artículo, exploraremos algunas de las afirmaciones más relevantes de la Opinión del EDPB.
1. Modelos de IA "anónimos"
La cuestión planteada por la AC irlandesa fue si puede considerarse que, en cualquier caso, un modelo de IA entrenado con datos personales no implica el tratamiento de datos personales.
La respuesta breve del EDPB es no: los modelos de IA cuyo conjunto de datos de entrenamiento incluya datos personales no pueden considerarse siempre anónimos. Sin embargo, respecto a cuándo pueden considerarse anónimos, la respuesta es que depende del caso concreto. El EDPB reitera en varias ocasiones que las ACs deberán realizar evaluaciones caso por caso.
No obstante, la conclusión de que los modelos de IA no serán siempre anónimos se basa en dos ideas principales que aportan claridad sobre la cuestión:
Por un lado, algunos modelos de IA están diseñados específicamente para procesar y proporcionar datos personales como salida. En estos casos, el EDPB considera que el modelo no puede considerarse anónimo y proporciona ejemplos: “un modelo de IA generativa ajustado con grabaciones de voz de un individuo para imitar su voz; o […] cualquier modelo diseñado para responder con datos personales del entrenamiento cuando se le solicita información sobre una persona específica” [Párrafo 29].
Por otro lado, incluso cuando los modelos de IA no están diseñados para proporcionar datos personales como salida, pero sus conjuntos de datos de entrenamiento incluyen datos personales, estos “pueden seguir conteniendo datos personales ‘absorbidos’ en los parámetros del modelo […]. Estos pueden diferir de los datos de entrenamiento originales, pero aún pueden retener la información original, la cual podría, en última instancia, ser extraída o de otro modo obtenida, directa o indirectamente, del modelo” [Párrafo 31].
En este sentido, la Opinión contiene una declaración significativa que confirma una desviación del documento publicado por la Autoridad de Protección de Datos de Hamburgo.
Mientras que este último argumenta que un modelo de IA nunca puede almacenar (y por tanto procesar) datos personales porque solo procesa “tokenizaciones” de palabras, y que los datos personales nunca pueden ser completamente reconstruidos desde el modelo [páginas 3 y 4], la Opinión establece que “la información puede referirse a una persona física incluso cuando está técnicamente organizada o codificada (por ejemplo, en un formato solo legible por máquina, ya sea propietario o abierto) de manera que no haga inmediatamente aparente su relación con dicha persona”. [Párrafo 37]
2. La importancia de redactar y mantener documentación técnica
El EDPB proporciona una lista no exhaustiva de elementos que pueden ser considerados por las autoridades de control al evaluar una reclamación de anonimato por parte de un responsable del tratamiento, en particular la documentación relativa a:
Diseño del modelo de IA: (i) selección de las fuentes utilizadas para construir el conjunto de datos de entrenamiento del modelo, incluyendo cualquier medida tomada para evitar o limitar la recopilación de datos personales; (ii) preparación y minimización de los datos, por ejemplo, detalles sobre las técnicas de anonimización o seudonimización aplicadas durante el preprocesamiento de datos; (iii) decisiones metodológicas sobre el entrenamiento, como el uso de privacidad diferencial; (iv) medidas relativas a las salidas del modelo, por ejemplo, la aplicación de filtros para evitar la divulgación de datos personales en respuesta a determinadas consultas.
Análisis del modelo de IA: aplicación de medidas efectivas de gobernanza de ingeniería, incluyendo auditorías documentadas tanto internas como externas.
Pruebas del modelo de IA y resistencia a ataques: evaluación contra ataques avanzados, incluyendo ataques de inferencia, exfiltración, regurgitación, inversión de modelos y reconstrucción de modelos.
Documentación relacionada con el RGPD: consultas con el delegado de protección de datos (DPD), evaluaciones de impacto en la protección de datos (DPIAs), medidas técnicas y organizativas aplicadas, etc.
Los elementos anteriores evidencian la importancia de documentar cada decisión tomada en el desarrollo de modelos y sistemas de IA desde el inicio del proceso de desarrollo.
Esto se ha vuelto obligatorio para los sistemas de IA de alto riesgo y los modelos de IA de propósito general bajo la Ley de IA y constituye una buena práctica de gobernanza de la IA, independientemente del nivel de riesgo identificado en dicha normativa.
Es un proceso que los desarrolladores deben considerar desde el momento en que surge la idea de desarrollar un modelo y sistema de IA, como un paso crítico para demostrar el cumplimiento con la normativa de protección de datos.
3. Evaluación rigurosa del uso del interés legítimo como base jurídica
La Opinión enfatiza la necesidad de diferenciar entre las distintas fases del ciclo de vida de los modelos de IA en las que puede producirse el tratamiento de datos personales [Párrafo 63]. A lo largo de estas fases, las bases jurídicas aplicables conforme al artículo 6 del RGPD pueden diferir y requerirán evaluaciones separadas con respecto a los principios de protección de datos del artículo 5.
En particular, durante la fase de desarrollo (incluyendo el entrenamiento), la evaluación de equidad, la finalidad y, por ende, la base jurídica aplicable, pueden diferir de la fase de despliegue.
La Opinión recuerda el test de tres pasos que debe aplicarse cuando se invoque el interés legítimo:
Identificar el interés perseguido por el responsable del tratamiento o un tercero y determinar si es legítimo.
Analizar la necesidad del tratamiento y evaluar si existen medios menos intrusivos para alcanzar el mismo propósito.
Determinar si el interés legítimo no se ve superado por los intereses, derechos y libertades fundamentales de los interesados.
Asimismo, la Opinión destaca que, cuando los intereses, derechos y libertades de los interesados parezcan prevalecer sobre los intereses legítimos del responsable, este puede aplicar medidas de mitigación para reducir el impacto en los interesados. No obstante, se enfatiza que estas medidas deben ser distintas de aquellas requeridas para garantizar el cumplimiento del RGPD.
En este sentido, se proporciona una lista no exhaustiva de medidas, tales como: permitir un período de tiempo razonable entre la recopilación del conjunto de datos de entrenamiento y su uso para que los interesados puedan oponerse; excluir datos de grupos vulnerables; o garantizar que ciertas categorías de datos nunca sean recopiladas.
Además, la Opinión señala que el simple hecho de incluir información sobre el entrenamiento de IA en la “política de privacidad del responsable” no implica necesariamente que los interesados puedan esperar razonablemente que dicho entrenamiento ocurra [Párrafo 92].
4. Entrenamiento ilícito y diligencia debida en sistemas de IA de terceros
La cuarta cuestión planteada por la AC irlandesa se refiere a las consecuencias de que un modelo de IA haya sido entrenado ilícitamente con datos personales en virtud de los artículos 5(1)(a) y 6 del RGPD.
En consecuencia, el EDPB establece tres escenarios en los que el modelo de IA ha sido entrenado ilícitamente y:
El modelo de IA no es anónimo y es desplegado por el mismo responsable del tratamiento: en caso de que la autoridad de control detecte una infracción, cualquier medida correctiva impuesta (por ejemplo, la eliminación del modelo) podría afectar la fase de despliegue. Sin embargo, el EDPB no desarrolla más detalles sobre este punto.
El modelo de IA no es anónimo y es desplegado por otro responsable del tratamiento: cada responsable será responsable de las actividades de tratamiento que realice. En este sentido, “las autoridades de control deberían considerar si el responsable que despliega el modelo ha llevado a cabo una evaluación adecuada para verificar que el modelo de IA no fue desarrollado mediante el tratamiento ilícito de datos personales” [Párrafo 129], añadiendo que el nivel de detalle esperado en esta evaluación puede variar [Párrafo 130]. De este modo, el EDPB enfatiza la necesidad de que exista un nivel establecido de diligencia debida al elegir proveedores de sistemas de IA, del mismo modo que debe aplicarse al seleccionar encargados del tratamiento, responsables conjuntos o terceros que manejen los datos de la organización.
El modelo de IA ha sido entrenado ilícitamente con datos personales, pero posteriormente es anonimizado antes de que sea desplegado por el mismo responsable o por otro distinto: el EDPB contempla dos escenarios: (1) cuando el modelo de IA ha sido realmente anonimizado tras el entrenamiento y (2) cuando, en la fase de despliegue, los datos personales son procesados o no. En ambos casos, considera que la ilicitud del entrenamiento no afecta el despliegue, probablemente bajo el argumento de que el conjunto de datos de entrenamiento debería haber sido anonimizado desde el inicio.
Conclusión
Aunque, como algunos comentaristas han señalado, la Opinión del EDPB menciona con demasiada frecuencia la necesidad de que las autoridades de control realicen evaluaciones caso por caso en cuestiones que eventualmente tendrán un impacto en más de un Estado miembro, también ofrece declaraciones de gran valor.
Los modelos de IA no pueden considerarse siempre anónimos. El manejo lícito y ético de los datos, el preprocesamiento y el entrenamiento son factores determinantes y afectan la fase de despliegue, aunque el EDPB no haya profundizado en qué tipo de impacto o consecuencias pueden derivarse de ello.
Siguiendo el principio de responsabilidad proactiva, los responsables del tratamiento deben llevar a cabo una diligencia debida adecuada al seleccionar proveedores de IA, incluyendo la evaluación de la legalidad del entrenamiento y el tratamiento de datos personales.
Además, se enfatiza que contar con documentación técnica sólida, que capture de manera exhaustiva los detalles del proceso de desarrollo y despliegue, es crucial para demostrar responsabilidad y cumplimiento con el RGPD. Esto aplica a todos los modelos y sistemas de IA, independientemente del nivel de riesgo identificado en la Ley de IA.
Por último, la Opinión destaca que recurrir al interés legítimo como base jurídica debe ser una decisión cuidadosamente evaluada. Para que sea legítima, probablemente sea necesario aplicar una capa adicional de medidas organizativas y de seguridad.
En general, se espera que esta sea la primera de una serie de opiniones y directrices concretas del EDPB para abordar las complejidades de la IA y la protección de datos.
Artículo original en inglés aquí.