Quando i dati sono troppi

– Fonte: Afrah su Unsplash.

I sistemi di intelligenza artificiale moderni vengono addestrati con enormi quantità di dati, perché l’idea di fondo è che più dati ci sono, meglio è. Esempio tipico è ChatGPT, a cui è stato fatto leggere e digerire praticamente tutto lo scibile umano, o almeno tutto lo scibile umano presente su internet. Ma, nonostante questa montagna di conoscenza, ChatGPT non capisce quello che legge, e nelle sue risposte mette solo in fila una parola dopo l’altra, calcolando la probabilità che una nuova parola segua quella che ha appena generato.¹

Facciamo un esempio terra terra: se addestrassimo un sistema di generazione di testi utilizzando 100 documenti, nella metà dei quali c’è scritto che la rivoluzione francese è avvenuta in Francia nel 1789 e nell’altra metà che è avvenuta in Nord America nel 1776, il nostro sistema (presunto) intelligente non saprà distinguere i documenti sbagliati da quelli corretti,² e quando sarà interrogato ci risponderà la metà delle volte, senza battere ciglio, che la rivoluzione francese è avvenuta in America, e una volta su quattro che si è svolta in Francia ma nel 1776.

ChatGPT è l’estrapolazione estrema di questo concetto: legge, analizza, calcola, ma non capisce un tubo.

Ma i problemi non nascono solo quando i sistemi di intelligenza artificiale vengono addestrati a partire da informazioni sbagliate o del tutto false.³

I problemi nascono anche quando addestriamo un sistema di intelligenza artificiale con dei dati di scarsa qualità. Ce lo dicono Marco Roccetti e i suoi colleghi in un bell’articolo, “Più grande è sempre meglio? Un viaggio controverso al centro della progettazione dei [sistemi] di apprendimento automatico, con usi e abusi dei big data nella predizione dei guasti ai contatori dell’acqua”, che parte da un problema molto specifico come i guasti ai contatori, per affrontare il problema principale dei sistemi di intelligenza artificiale, la qualità dei dati in ingresso.

L’articolo ha un sapore molto di casa nostra, si nota chiaramente che è scritto da italiani che traducono in inglese il nostro modo particolare di esprimerci, ma è davvero molto interessante anche perché racconta il percorso compiuto, gli errori fatti, gli ostacoli incontrati e le tecniche usate per superarli, un approccio normale in un racconto o in un saggio ma inusuale, anzi scoraggiato, in un articolo scientifico.

E in questo percorso gli autori si sono accorti che non è vero che si può dare di tutto in pasto ad un sistema di apprendimento automatico e che sarà poi il sistema stesso a separare il grano dal loglio e a tirare delle conclusioni sensate. Anzi, è vero proprio il contrario, se diamo in pasto al sistema tantissimi dati raffazzonati, contenenti informazioni mancanti o contraddittorie, anche le predizioni che ne verranno fuori saranno di scarsa qualità. Molto meglio selezionare i dati corretti, ed usare solo quelli per addestrare il sistema e trarre le proprie conclusioni.

Junk in, junk out (spazzatura in ingresso, spazzatura in uscita), me lo ripeteva sempre il mio indimenticato mentore tedesco, è un vecchio adagio ma è sempre valido.

Ma il concetto che “più grande non è detto che sia sempre meglio” non è una novità dell’era dei big data, anzi è ben noto a chi si occupa di queste cose perlomeno dagli anni ‘30 del secolo scorso, quando la rivista Literary Digest inviò a 10 milioni di elettori una finta scheda elettorale, da rispedire dopo averla votata. Risposero in 2.4 milioni, un numero enorme per quei tempi, e la stragrande maggioranza dei voti andò al candidato repubblicano, Alfred Landon. Nella realtà vinse il democratico Franklin Delano Roosevelt con il 61% dei voti, e l’unico a predire correttamente il risultato finale fu George Gallup, che aveva condotto un sondaggio con poche migliaia di partecipanti.

Questo episodio non solo fece la fortuna di Gallup, il cui istituto di sondaggi divenne per decenni la principale agenzia di indagini demoscopiche degli Stati Uniti, ma mise plasticamente in evidenza l’importanza del bias di campionamento nelle analisi statistiche. Venne riconosciuto in pratica, e a partire da un esempio di dimensioni ciclopiche (almeno per quei tempi), che quello che conta non è la quantità dei dati raccolti ma la sua qualità.

La Literary Digest aveva inviato le sue finte schede ai suoi abbonati e agli elettori presenti negli elenchi telefonici e in quelli della motorizzazione, cosa che durante la ripresa dalla Grande Depressione significava selezionare solo chi apparteneva alle classi sociali più abbienti e più orientate a votare repubblicano. Gallup, invece, aveva scelto il suo piccolo campione in modo casuale, stando attento a pescare in modo omogeneo fra i diversi gruppi demografici della popolazione americana. Ed ebbe ragione.

Il bias di campionamento è proprio questo: avere tantissimi dati non serve a niente se questi descrivono solo una parte del fenomeno che si vuole studiare, in altri termini se la loro qualità statistica è scarsa. Non è vero che “se ci sono abbastanza dati i numeri parlano da soli”, è vero invece che la spazzatura in ingresso produce solo spazzatura in uscita.

I report periodici di Backblaze (l’ultimo pubblicato, relativo al primo trimestre del 2023, si trova qui) sul tasso di rottura dei dischi installati nei suoi data center sparsi per il mondo (si parla oggi di ben 250.000 dischi) sono diventati una lettura imprescindibile per chi si occupa di hardware, ed un modo per valutare la qualità dell’una o dell’altra marca o modello di disco rigido.

Niente da dire, i report sono fatti molto bene e descrivono con cura il comportamento reale dei dischi usati nei data center dell’azienda. Ma, spiace dirlo, questi report non servono a valutare il comportamento dei dischi rigidi installati nei nostri computer, e in qualche misura anche nei nostri NAS, e non possono valere di certo come consigli per gli acquisti.

I dischi montati nei data center di Backblaze vengono accesi e funzionano quasi ininterrottamente fino alla fine della loro vita utile (o finché si rompono), sono soggetti a condizioni di temperatura e umidità ben controllate, non sono sottoposti a sbalzi di tensione o a spegnimenti improvvisi, e anche il problema delle vibrazioni, ingigantito dal grande numero di dischi montati in ogni singola unità di storage, viene affrontato in modo adeguato.

Tutto il contrario di quello che avviene nelle nostre case o nei nostri uffici, dove i computer vengono accesi e spenti di continuo (orrore!), dove i computer vengono spostati senza troppi scrupoli anche se sono accesi (altro orrore!), dove l’ENEL ogni tanto fa mancare l’energia elettrica, o dove i weekend (e anche le semplici notti) fanno schizzare in alto o in basso le temperature (non so voi ma il mio ufficio diventa rovente durante i weekend estivi e gelato in inverno, e ci vuole una buona mezz’ora, il lunedì, per tornare a condizioni normali).

I dischi di Backblaze sono come i votanti del Literary Digest, anche se sono tantissimi rappresentano solo una piccola parte delle modalità di uso di un disco rigido, e tutte le conclusioni statistiche tratte dai loro dati valgono al 100% solo per quella specifica modalità di uso, non per tutto l’universo dei dischi rigidi.

Volete comprare gli stessi dischi usati da Backblaze? Niente in contrario, sono di sicuro modelli veloci e di qualità. Però, mi spiace dirlo, anche se i report li qualificano come dischi particolarmente affidabili per i data center, non è affatto detto che faranno lo stesso anche sui vostri computer.

È un po’ più complicato di così ma il succo è quello. ↩
Per il cervello umano è banale capire dal contesto che la rivoluzione francese non può essere avvenuta in Nord America. Non è così per i sistemi di generazione di testi, che calcolano la probabilità che si presentino determinati flussi di parole ma non hanno la minima idea del loro significato. ↩
L’impossibilità di comprendere i dati che gli vengono forniti è alla base del timore che i sistemi di intelligenza artificiale possano contribuire a diffondere informazioni sbagliate o totalmente inventate, propagandate come vere solo perché prodotte dal “cervellone” artificiale. Un problema molto serio, che preoccupa moltissimo i ricercatori più avvertiti (e dovrebbe preoccupare anche noi). ↩

Quando i dati sono troppi

Pubblicato da Sabino Maggi Segui

Commenti

Aggiungi un commento

@name