Des chercheurs conçoivent une approche pour réduire les biais dans les ensembles de données de vision par ordinateur – ScienceDaily

Pour résoudre les problèmes de biais dans l’intelligence artificielle, les informaticiens de Princeton et de l’Université de Stanford ont développé des méthodes pour obtenir des ensembles de données plus justes contenant des images de personnes. Les chercheurs proposent des améliorations à ImageNet, une base de données de plus de 14 millions d’images qui a joué un rôle clé dans l’avancement de la vision par ordinateur au cours de la dernière décennie.

ImageNet, qui comprend des images d’objets et de paysages ainsi que de personnes, sert de source de données de formation aux chercheurs qui créent des algorithmes d’apprentissage automatique qui classent les images ou reconnaissent les éléments qu’elles contiennent. L’échelle sans précédent d’ImageNet a nécessité une collecte d’images automatisée et une annotation d’images participative. Bien que les catégories de personnes de la base de données aient été rarement utilisées par la communauté des chercheurs, l’équipe d’ImageNet s’est efforcée de répondre aux biais et autres préoccupations concernant les images représentant des personnes qui sont des conséquences imprévues de la construction d’ImageNet.

“La vision par ordinateur fonctionne désormais très bien, ce qui signifie qu’elle est déployée partout dans toutes sortes de contextes”, a déclaré la co-auteure Olga Russakovsky, professeure adjointe en informatique à Princeton. “Cela signifie que le moment est venu de parler du type d’impact que cela a sur le monde et de réfléchir à ce genre de problèmes d’équité.”

Dans un nouvel article, l’équipe d’ImageNet a systématiquement identifié les concepts non visuels et les catégories offensantes, telles que les caractérisations raciales et sexuelles, parmi les catégories de personnes d’ImageNet et a proposé de les supprimer de la base de données. Les chercheurs ont également conçu un outil qui permet aux utilisateurs de spécifier et de récupérer des ensembles d’images de personnes qui sont équilibrés par l’âge, l’expression de genre ou la couleur de la peau – dans le but de faciliter des algorithmes qui classent plus équitablement les visages et les activités des personnes dans les images. Les chercheurs ont présenté leurs travaux le 30 janvier à la conférence de l’Association for Computing Machinery sur l’équité, la responsabilité et la transparence à Barcelone, en Espagne.

“Il est absolument nécessaire que des chercheurs et des laboratoires possédant une expertise technique de base dans ce domaine s’engagent dans ce type de conversations”, a déclaré Russakovsky. “Étant donné la réalité dont nous avons besoin pour collecter les données à grande échelle, étant donné la réalité que cela va se faire avec le crowdsourcing parce que c’est le pipeline le plus efficace et le mieux établi, comment pouvons-nous le faire d’une manière plus juste – cela ne ne tomberont pas dans ce genre de pièges antérieurs? Le message central de ce document est autour de solutions constructives. “

Un groupe d’informaticiens à Princeton et Stanford a lancé ImageNet en 2009 en tant que ressource pour les chercheurs universitaires et les éducateurs. L’ancien élève de Princeton et membre du corps professoral Fei-Fei Li, maintenant professeur d’informatique à Stanford, dirigeait l’effort. Pour encourager les chercheurs à créer de meilleurs algorithmes de vision par ordinateur à l’aide d’ImageNet, l’équipe a également créé le défi de reconnaissance visuelle à grande échelle ImageNet. Le défi était principalement axé sur la reconnaissance d’objets à l’aide de 1 000 catégories d’images, dont seulement trois représentaient des personnes.

Certains des problèmes d’équité dans ImageNet proviennent du pipeline utilisé pour créer la base de données. Ses catégories d’images provenaient de WordNet, une ancienne base de données de mots anglais utilisés pour la recherche sur le traitement du langage naturel. Les créateurs d’ImageNet ont adopté les noms dans WordNet – dont certains, bien qu’ils soient des termes verbaux clairement définis, ne se traduisent pas bien dans un vocabulaire visuel. Par exemple, les termes qui décrivent la religion ou l’origine géographique d’une personne peuvent ne récupérer que les résultats de recherche d’images les plus distinctifs, ce qui peut conduire à des algorithmes qui perpétuent les stéréotypes.

Un projet artistique récent appelé ImageNet Roulette a attiré l’attention sur ces préoccupations. Le projet, publié en septembre 2019 dans le cadre d’une exposition d’art sur les systèmes de reconnaissance d’images, a utilisé des images de personnes d’ImageNet pour former un modèle d’intelligence artificielle qui classait les personnes en mots en fonction d’une image soumise. Les utilisateurs pouvaient télécharger une image d’eux-mêmes et récupérer une étiquette basée sur ce modèle. Beaucoup de classifications étaient offensantes ou simplement hors-base.

L’innovation centrale qui a permis aux créateurs d’ImageNet d’amasser une si grande base de données d’images étiquetées était l’utilisation du crowdsourcing – en particulier, la plate-forme Amazon Mechanical Turk (MTurk), via laquelle les travailleurs étaient payés pour vérifier les images candidates. Cette approche, bien que transformatrice, était imparfaite, conduisant à des biais et à des catégorisations inappropriées.

“Lorsque vous demandez aux gens de vérifier les images en sélectionnant les bonnes parmi un grand nombre de candidats, les gens se sentent obligés de sélectionner certaines images et ces images ont tendance à être celles qui présentent des caractéristiques distinctives ou stéréotypées”, a déclaré l’auteur principal Kaiyu Yang, diplômé. étudiant en informatique.

Dans l’étude, Yang et ses collègues ont d’abord filtré les catégories de personnes potentiellement offensantes ou sensibles d’ImageNet. Ils ont défini les catégories offensives comme celles contenant des insultes ou des insultes raciales ou sexistes; les catégories sensibles comprenaient, par exemple, la classification des personnes en fonction de l’orientation sexuelle ou de la religion. Pour annoter les catégories, ils ont recruté 12 étudiants diplômés d’horizons divers, leur demandant de se tromper du côté de l’étiquetage d’une catégorie comme sensible s’ils n’étaient pas sûrs. Cela a éliminé 1 593 catégories – environ 54% des 2 932 catégories de personnes dans ImageNet.

Les chercheurs se sont ensuite tournés vers les travailleurs de MTurk pour évaluer l ‘”imageabilité” des catégories de sécurité restantes sur une échelle de 1 à 5. Le maintien des catégories avec une cote d’imageabilité de 4 ou plus a abouti à seulement 158 ​​catégories classées à la fois comme sûres et imageables. Même cet ensemble de catégories hautement filtré contenait plus de 133 000 images – une multitude d’exemples pour la formation d’algorithmes de vision par ordinateur.

Dans ces 158 catégories, les chercheurs ont étudié la représentation démographique des personnes dans les images afin d’évaluer le niveau de biais dans ImageNet et de concevoir une approche pour créer des ensembles de données plus justes. Le contenu d’ImageNet provient de moteurs de recherche d’images tels que Flickr, et les moteurs de recherche en général se sont avérés produire des résultats qui surreprésentent les hommes, les personnes à la peau claire et les adultes âgés de 18 à 40 ans.

“Les gens ont constaté que les distributions de données démographiques dans les résultats de recherche d’images sont très biaisées, et c’est pourquoi la distribution dans ImageNet est également biaisée”, a déclaré Yang. “Dans cet article, nous avons essayé de comprendre à quel point il est biaisé, et aussi de proposer une méthode pour équilibrer la distribution.”

Parmi les attributs protégés par les lois anti-discrimination américaines, les chercheurs ont considéré les trois attributs imaginables: la couleur de la peau, l’expression de genre et l’âge. Les travailleurs de MTurk ont ​​été invités à annoter chaque attribut de chaque personne dans une image. Ils ont classé la couleur de la peau comme claire, moyenne ou foncée; et l’âge en tant qu’enfant (moins de 18 ans), adulte 18-40 ans, adulte 40-65 ans ou adulte de plus de 65 ans. Les classifications par sexe incluaient les hommes, les femmes et les incertitudes – un moyen d’inclure des personnes avec des expressions de genre diverses, ainsi que des images annotées le sexe ne pouvait pas être perçu à partir d’indices visuels (comme de nombreuses images de bébés ou de plongeurs).

Une analyse des annotations a montré que, comme pour les résultats de recherche, le contenu d’ImageNet reflète un biais considérable. Les personnes annotées à peau foncée, les femmes et les adultes de plus de 40 ans étaient sous-représentées dans la plupart des catégories.

Bien que le processus d’annotation comprenne des contrôles de qualité et que les annotateurs soient nécessaires pour parvenir à un consensus, par souci du danger potentiel des erreurs d’annotation, les chercheurs ont choisi de ne pas publier d’annotations démographiques pour les images individuelles. Au lieu de cela, ils ont conçu un outil d’interface Web qui permet aux utilisateurs d’obtenir un ensemble d’images qui sont démographiquement équilibrées d’une manière que l’utilisateur spécifie. Par exemple, la collection complète d’images dans la catégorie “programmeur” peut comprendre environ 90% d’hommes et 10% de femmes, tandis qu’aux États-Unis, environ 20% des programmeurs informatiques sont des femmes. Un chercheur pourrait utiliser le nouvel outil pour récupérer un ensemble d’images de programmeur représentant 80% d’hommes et 20% de femmes – ou même une répartition, selon l’objectif du chercheur.

“Nous ne voulons pas dire quelle est la bonne façon d’équilibrer la démographie, car ce n’est pas un problème très simple”, a déclaré Yang. “La distribution pourrait être différente dans différentes parties du monde – la distribution des couleurs de peau aux États-Unis est différente de celle des pays d’Asie, par exemple. Nous laissons donc cette question à notre utilisateur, et nous fournissons simplement un outil pour récupérer un sous-ensemble équilibré des images. “

L’équipe ImageNet travaille actuellement sur des mises à jour techniques de son matériel et de sa base de données, en plus d’implémenter le filtrage des catégories de personnes et l’outil de rééquilibrage développé dans cette recherche. ImageNet sera bientôt réédité avec ces mises à jour et avec un appel à commentaires de la communauté de recherche en vision par ordinateur.

Ph.D. de Princeton l’étudiant Klint Qinami et le professeur adjoint d’informatique Jia Deng ont co-écrit le papier avec Yang, Li et Russakovsky. La recherche a été financée par la National Science Foundation.

Source

A propos admin

Découvrez également

Au-delà du bord, le halo du Sombrero Galaxy suggère un passé turbulent – ScienceDaily

De nouvelles données surprenantes du télescope spatial Hubble de la NASA suggèrent que le “bord” …

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *