El Social Media Listening tiene dos lecciones para ChatGPT
Nunca te acostarás sin saber una cosa más
La mayor parte de denuncias sufridas por OpenAI en Europa se reducen a dos:
1.- “He preguntado por mí mismo y el cabrón de ChatGPT ha contestado con información inexacta: DENUNCIO.”
O simplemente:
2.- “He preguntado por mí mismo y el cabrón de ChatGPT sabía quién era yo: se ha entrenado con mis datos personales sin mi consentimiento: DENUNCIO.”
No digo que no haya muchos más problemas en protección de datos. Hablo de las más sonadas.
Cada semana en Zero Party Data, desmenuzamos la actualidad de la tecnología, IA y protección de datos desde el punto de vista jurídico.
Este post es la segunda parte de este de aquí:
IA vs RGPD: Tres vías alternativas de cumplimiento
[Suena la voz de Sofía Petrillo, la hierática abuela de “Las chicas de oro”]:
Social Media Listening
Las plataformas de social media (“redes sociales” pero también las versiones digitales de los legacy media) han democratizado la libertad de expresión e información, proporcionando altavoz al ciudadano anónimo, quien puede adquirir en ellas tracción y popularidad para convertirse en “ciudadano periodista” o “cabeza visible de una determinada opinión compartida” por sí mismo, sin contar con los medios de comunicación tradicionales.
Este fenómeno trae consigo un incremento significativo de exposición pública (con todo lo que ello conlleva) en especial de quienes alcanzan el status de Influencer o Key Opinion Leader en la terminología especializada.
El Social Media Listening nace como una hibridación entre los tradicionales sondeos o métricas representativas de opinión pública del siglo XX y la posibilidad actual, de capturar la opinión de la totalidad de una comunidad presente en una determinada red social, pero ponderándola en función de la diversa influencia de sus componentes.
La doble cadena de ADN del SML desde el punto de vista de protección de datos
La legitimación de tratamientos de datos personales en social media listening se basa en una doble regla inversamente proporcional, santificada por el TJUE y el EDPB:
· Cuantos más seguidores (más influencia) tiene una persona en redes sociales, más peso tiene su opinión (y más interesa identificarle o distinguirle de la masa), porque cataliza la de muchos otros. En sentido inverso, la identidad de cada uno de los influidos / no influidos no es más que un punto estadístico que no interesa a nadie por sí.
· Cuanto más pública o interesante para el público es una persona, cuanto más grande es la esfera de su vida expuesta voluntariamente o por circunstancias de interés público, más pequeña es la protección de sus datos personales.
Llevo explicando estas tres opciones (y alguna otra) de cumplimiento del RGPD en el contexto de la IA casi año y medio en mis formaciones. La próxima ya tiene fecha: será entre los días 29 de abril y 5 de junio. Más info e inscripciones aquí y escribiendo a formacion(arroba)jorgegarciaherrero.com.
Explicación con fotitos
El segundo punto merece un poco de explicación. Creo que se entiende bien con el ejemplo de la familia Rodríguez Zapatero:
Caso 1: Zapatero
Mientras Jose Luis Rodríguez Zapatero era Presidente del Gobierno español, todo lo que hacía era de interés general. Era una persona pública.
Todo un corpus jurisprudencial y de doctrina de las autoridades de cumplimiento reconocen que las personas públicas tienen su derecho de protección de datos reducido a su esfera personal y familiar. Y diría que ni esa, porque si a una persona pública se le ocurre acercarse más de la cuenta a una persona no tan pública distinta de su cónyuge, ningún informador, profesional o aficionado será castigado por hacerlo público.
Porque conductas privadas incoherentes con las públicas son cuestiones de interés general.
Este mismo principio leído en sentido contrario explica por qué a los votantes de Donald Trump les afecte entre mucho y la hostia (para los de fuera de Valladolid: nada) que su paladín fuera condenado por sentencia firme por violación.
Nadie apreció inconsistencia entre la conducta pública y la privada.
Ni sus votantes, ni sus detractores.
Caso 2: esta chica siniestra random
Es una persona no pública. No sabemos quién es ni cómo se llama. Su derecho de protección de datos personales le cubre en todo su esplendor.
Pero llegamos ahora a lo interesante: los casos intermedios.
Caso 3: Las hijas de Zapatero
Cuando los Obama visitaron España, se hicieron esta foto, con la familia Rodríguez Zapatero al completo. Hijas incluidas.
Ni un solo cuñao se privó de hacer su gratuito y no solicitado comentario sobre las pintas de las dos chicas, menores de edad en ese momento.
Era un caso en plena tierra de nadie, porque las chicas posaron para una foto oficial que se hizo pública.
En mi opinión deberían haber sido más protegidas. De hecho, hoy puedes encontrar en internet muchas de las copias de esa imagen con el rostro de las hijas pixelado. Y así la reproduzco aquí.
Caso 4: Alba, la hija de Zapatero again
¿Pero qué pasa cuando Alba, una de las hijas de Zapatero da el paso de “convertirse en influencer”, esto es, exponer públicamente sus opiniones y criterios sobre determinados temas sobre los que aspira a crear opinión?
Sin profundizar, porque no es este el tema del post, desde el punto de vista de protección de datos el doble criterio básico para ponderar debidamente estas situaciones es el de “legítimas expectativas del interesado / consecuencias del tratamiento para el interesado”.
Ahora se entiende mejor cómo no somos todos iguales ante el RGPD (y ante los Social Media Listeners):
El perímetro de la protección de datos personales se va reduciendo sensiblemente a medida que una persona transita desde la condición de (i) “siniestra random anónima”, a la de (ii) “hija de persona pública”, a la de (iii) “influencer” (y estos los hay de muuuchos colores y tamaños), y por último a la de (iv) “persona pública” como Zapatero.
Por eso, al emplumarle el data set a un modelo multimodal que va a aprender todos los datos y obras publicadas, parece una buena idea subrayar que la importancia estadística de apariciones de una persona es un criterio a tener en cuenta al establecer umbrales por encima o debajo de los cuales, el modelo (preferentemente el modelo, en vez del sistema) sencillamente no responda, por mucho que se le pregunte.
Hay más cosas, claro que sí
Esto por supuesto, no es una solución total: es un punto de partida.
Mi punto aquí es el que busco siempre: empezar por la parte que ya tenemos jurídicamente resuelta y construir desde ahí.
.- Es obvio que, por ejemplo, OpenAI ha tratado y puede seguir tratando los datos de las “personas no públicas” aunque se lo impida a sus usuarios.
La aplicación de este filtrado o umbral debería realizarse al recabar los datos que van a integrar el training dataset, antes del entrenamiento del modelo, o bien durante el entrenamiento para que el modelo ignore la información de las personas “de estadística baja” so to speak.
.- En cuanto a otros derechos como el de supresión, sabemos que -de momento- la tecnología no da para más y me temo que tendremos que esperar a que el TJUE haga su magia con otra de sus míticas sentencias, como la de Google Spain, compaginando las limitaciones de la técnica con los principios del Estado de Derecho y garantías de derechos individuales.
Esos principios y garantías que, cada día que pasa, estamos más cerca de poder denominar principios y garantías “europeos” con toda propiedad.
Sin condescendencia, como hasta ahora.
Muy buena semana.
Jorge García Herrero
Abogado y Delegado de Protección de Datos