jueves, 14 de marzo de 2019

ASÍ APROVECHÓ IBM MILLONES DE FOTOS DE FLICKR CON LICENCIA CREATIVE COMMONS PARA MEJORAR SU RECONOCIMIENTO FACIAL


         Los sistemas de reconocimiento facial están por todas partes, pero necesitan una materia prima esencial: datos y más datos. Para entrenar los algoritmos, los investigadores no solo trabajan en mejorar sus modelos, también necesitan grandes bases de datos para poder probar si los sistemas funcionan. ¿De dónde salen estos datos? En el caso de IBM, según ha revelado NBCNews, de imágenes con licencia CC de Flickr.

   IBM publicó el año pasado un conjunto de datos denominado 'Diversity in Faces'. Se trata de un trabajo interesante ya que en vez de basarse en imágenes de personas famosas, mostraban la amplia pluralidad de rostros que pueden existir. Algo que sirve para mejorar el reconocimiento facial en su tratamiento, por ejemplo, con diversos tonos de piel.
   Pero lo que no se conocía es que muchas de estas imágenes han sido extraídas de Flickr e incluyen imágenes personales. Tanto es así que muchos usuarios se han encontrado sorprendidos al conocer que estaban en esa base de datos, sin haber dado consentimiento previo para tal uso.

   Según explica un fotógrafo afectado a la NBC, "ninguna de las personas que fotografié tenían idea que sus fotos iban a ser utilizadas de esta manera". La clave del asunto está en el uso de la licencia Creative Commons; mientras que sí se permite utilizar estas imágenes, era difícil anticipar que se utilizarían estas imágenes para entrenar sistemas de reconocimiento facial y que posteriormente pueden clasificar rostros en función del género, el color de pelo o la etnia.



   Las imágenes no fueron recopiladas directamente por IBM, sino por Yahoo. En concreto, el set de rostros se encuentra dentro de la base de datos YFCC100M, un conjunto de 99.2 millones de fotos con licencia creative commons creada por Yahoo, quien recordemos es dueño de la propia Flickr.
La base de datos de IBM no es pública, aunque si eres investigador y ofreces tus motivos, puedes solicitar acceso a IBM para trabajar con este set de datos.

   La base de datos de 'Diversity in Faces' utilizada por IBM contenía inicialmente 100 millones de imágenes de Flickr, que posteriormente fueron reducidas a un millón de rostros para poder trabajar con ellos e identificar los patrones más importantes de cada uno. Valores como la edad estimada, el género, el tamaño de la nariz, la distancia entre los ojos, el color de piel... más de 200 valores para identificar a una persona con sus algoritmos.

   Como comenta el investigador Jack Poulson, "es casi imposible conseguir que eliminen nuestra foto. IBM requiere enlaces a esas fotos, pero la compañía no ha publicado públicamente la lista de usuarios de Flickr y por tanto es muy difícil saber quién tiene su foto incluida".

   Actualmente, la compañía ofrece su sistema IBM Watson Visual Recognition para reconocer y estimar la edad y el género de las personas y puede ser utilizado por otros clientes para identificar a personas específicas en fotos o vídeos. Una habilidad que se ha entrenado en parte gracias al uso sin consentimiento del rostro de millones de personas. E IBM no es la única compañía en utilizar nuestras fotos para tal propósito.

IBM ofrece la siguiente respuesta:

    Nos tomamos la privacidad de las personas muy en serio y hemos tenido mucho cuidado en cumplir con los principios de privacidad, lo cual incluye haber limitado la base de datos 'Diversity in Faces' a las anotaciones de imágenes disponibles de forma pública y a que solo puedan acceder a ellas investigadores verificados. Las personas pueden optar a salir de esta base de datos. IBM lleva comprometida con la creación de tecnología responsable, justa y en la que se pueda confiar durante más de un siglo y piensa que es fundamental esforzarse por la honestidad y la exactitud en el reconocimiento facial.

Fuente: Xataka