lundi 17 août 2020

Intelligence artificielle, un biais contre les biais

Boycottant la hype et le marketing stupide, je ne laisserai "intelligence artificielle" que dans le titre. Si tu as cliqué Lecteur, c'est ton problème !

J'ai lu avec grand plaisir ce recueil "philosophique" de 9 auteurs qui commentent autour de GPT-3, le nouveau modèle de traitement du languages d'Open AI qui représentent un pas en avant en matière de performance. Un des essais part dans des considérations sur les biais du modèle. Je dois admettre que je l'ai sauté, par dépis, tant je trouve ce type de commentaires stériles.

 

 

Qu'est-ce qu'un biais pour un système de ce type ? C'est lui demander de complèter "mère ..." et lui demander de complèter "père ...". Et de comparer  "mère célibataire", "mère indigne", "mère patrie", "mère nourricière", "mère aimante" à "père de la physique moderne", "père de la nation", "père prévenant" ; et décider de manière plus ou moins suggestive que la représentation de la femme est inférieur à celle de l'homme.

Un peu plus ancien, Google avait une fonctionnalité permettant de décrire automatiquement une image. Très sympa pour chercher votre super cliché de "perroquet". Moi amusant pour les utilisateurs noirs auquel le système avait proposé "gorille" devant une de leurs photo.

Ce sujet peut être aussi un vrai sujet, quand, par exemple, certains modèles sont utilisés pour décider si oui ou non mettre des gens en liberté conditionnelle et que l'ont s'apercoit qu'ils conservent un biais racial.

D'où viennent ces biais ? Invariablement ces systèmes qui cherchent à déduire à partir de données des règles, des caractéristiques qui forment le modèle final. Et donc, ces biais viennent systématiquement des données, qui représentent une réalité tel quel est, ou une vision partielle de celle-ci.


La première chose que nous apprend la simple existence de biais, quand il ne sont pas évidents, est souvent plus au sujet de notre monde en lui-même. Typiquement sur l'exemple ci-dessus des décisions de Justice, je doute que les ingénieurs ayant conçu le système aient fourni en entrée la race du détenu. Mais, le système semblerait avoir "reconstitué l'information" à partir d'informations tierces. Déterminisme social ? Erreur flagrante ? Serait-on proche de ces CVs anonymisés où l'on s'apercoit que le fait de vivre dans un ghetto est aussi négatif pour le recrutement que le fait d'avoir un nom étranger ?

Souvent, les biais de GPT-3 ou d'autres systèmes sont plus informatifs sur les données qu'ils ont reçus en entrée que sur les systèmes en eux-mêmes.

Et en celà, le premier sentiment quand j'observe ces biais est un émerveillement d'enfant pour le système. Celui-ci agit comme le mauvais génie des comptes de fées, exauçant nos voeux, mais profitant de tous les présupposés que nous n'avons pas formulés pour nous piéger. Le mauvais génie a néamoins l'intention de nuire, l'apprentissage superficiel non.




Ces biais ne sont généralement pas souhaitables. L'exemple judiciaire est flagrant, si l'on accepte les prémisses que j'ai faites plus haut, il y a là probablement une entorse au principle légal selon lequel on ignore la race d'un individu dans son traitement judiciare.

Simple note ici, l'exemple précité est américain. En France la race fait partie des données qu'il est interdit de collecter. Donc de données qu'il sera impossible de mettre en entrée d'un tel algorithme, mais également de données qui permettraient de mesurer un biais s'il existe vraiment.

Il y a tout un pan de la recherche qui travaille sur la thématique et des avancées majeures ont eu lieu ces dernières années autour de la problématique : comment dériver un modèle non biaisé à partir de données biaisé ? Ou, formuler autrement, comment forcer un modèle à ignorer certains schémas ?



Ce qui m'étonne, voir me choque, est que ces biais sont présentés comme des vices majeurs des systèmes, sans même que l'on ait considéré leurs bénéfices potentiels, ou les avancés scientifiques qu'ils représentent.

Le tollé suscité il y a maintenant des années par l'exemple de Google a eu de nombreux petits frères. Qui rendent les usages réels très souvent discrets, édulcorés ... Car le moindre plantage est une mauvaise publicité sur la race, l'identité de genre dans un monde qui se veut un safe space en marshmallow. Si demain vous pouviez soigner 90% des cancers en phase terminale, et que vous vous encombriez de remord 1% dont vous auriez hâté la mort. Je pense que vous feriez une erreur. A minima, j'aimerais que vous puissiez, dans les règles de ma médecine tester cette hypothèse.

Rendons à la plus part de ces "bugs" la place qui est la leur : des ratés dans ce qui doit être considéré parfois comme des prototype, quelque fois comme des gadgets, souvent comme des outils sans conséquences pour la vie humaine ou l'égalité des traitements en justice.

J'ai peur que ce luddisme ne conduise à des choix mauvais pour nous et notre société. Il est aujourd'hui devenu le politiquement correct, y compris dans les milieux technophiles.


On juge bien sévèrement ces systèmes parce qu'ils sont déterministes. Ils font la même erreur sur le même jeu de données. On peut prouver, qu'ils ont tort, tout le temps dans un contexte précis.

L'erreur humaine est différente, on se trompe peut-être souvent, mais devant le même problème on aura souvent appris de nos premières expériences, ou on se trompera simplement différement. Il est plus dur d'avoir ce même d'acharnement.


Aucun commentaire:

Publier un commentaire

Related Posts with Thumbnails