Quando l’intelligenza artificiale eredita i nostri pregiudizi: come la scienza sta provando a correggerla

Un algoritmo che associa “genio” a “uomo” e “casalinga” a “donna”. Un sistema di riconoscimento visivo che deduce il genere di chi cucina dalla presenza di un bambino nell’immagine. Non sono errori di programmazione, ma il riflesso fedele dei bias contenuti nei dati con cui addestriamo l’IA.

Ma come funzionano esattamente queste tecniche? E quali limiti presentano?

Un interessante articolo di O’Connor and Liu (2024) (Gender bias perpetuation and mitigation in AI technologies descrive due approcci tecnici per mitigare i pregiudizi di genere nei sistemi di intelligenza artificiale: uno focalizzato sul linguaggio (testo) e l’altro sulla visione artificiale (immagini).

Debiasing dei Word Embedding (Testo)

I word embeddings sono rappresentazioni matematiche del significato delle parole, in cui ogni termine è mappato come un vettore in uno spazio multidimensionale. Il problema nasce perché questi modelli catturano associazioni sessiste presenti nei testi di addestramento (ad esempio, associando “uomo” a “programmatore” e “donna” a “casalinga”).

Il processo di debiasing proposto dai ricercatori (Bolukbasi et al., 2016) si articola in due fasi principali:

Identificazione del sottospazio: l’algoritmo individua la direzione o la dimensione matematica nello spazio vettoriale che rappresenta il bias di genere.

Neutralizzazione ed equalizzazione (o “softening”):

L’algoritmo rimuove le connotazioni di genere dalle parole considerate “neutre” (come “dottore” o “genio”), rendendole matematicamente equidistanti dai termini specifici di genere (come “lui” o “lei”).

In alternativa, può “ammorbidire” (soften) il bias, mantenendo alcune distinzioni utili ma riducendo le associazioni stereotipate.

L’obiettivo è garantire che il sistema mantenga la sua utilità semantica (ad esempio, comprendere che “regina” è il femminile di “re”) senza però amplificare stereotipi sociali dannosi (riducendo la percentuale di stereotipi dal 19% al 6% nei test).

Adversarial debiasing nei dataset di immagini (Visione)

Questa tecnica affronta il problema che i semplici dataset bilanciati (con un numero uguale di uomini e donne) spesso non bastano a eliminare il bias, a causa di fenomeni come il “data leakage”. Ad esempio, se le immagini mostrano spesso donne con bambini in cucina, l’algoritmo potrebbe associare l’attività del “cucinare” al genere femminile basandosi sulla presenza del bambino, anche se non esplicitamente etichettato.

L’adversarial debiasing (Wang et al., 2019) funziona come segue:

Creazione di rappresentazioni oscurate: l’algoritmo mira a costruire rappresentazioni interne dei dati dalle quali sia impossibile prevedere gli “attributi protetti” (in questo caso, il genere).

Rimozione delle caratteristiche correlate: per mitigare il bias, il sistema impara a oscurare o eliminare selettivamente elementi dell’immagine che correlano fortemente con il genere, come i tratti del viso o determinati tipi di abbigliamento, pur conservando le informazioni necessarie per riconoscere l’azione o l’oggetto principale (ad esempio, “persona che cucina”).

Riduzione del “model leakage”: l’efficacia viene misurata verificando quanto sia difficile per il modello prevedere il genere dell’utente; l’applicazione di questa tecnica ha dimostrato di poter ridurre tale prevedibilità (leakage) del 53-67%.

In sintesi, mentre il debiasing del testo agisce sulla distanza matematica tra i concetti, quello delle immagini interviene sulla filtrazione delle caratteristiche visive per impedire al modello di “indovinare” il genere attraverso indizi contestuali.

Se vi interessa saperne di più sull’articolo citato, trovate altre considerazioni qui


Pubblicato

in

,

da

Tag: