Multimodal Machine Learning: Un nuovo metodo di apprendimento per le IA

A Captivating Illustration Of A Young White Collar 3PAtJ1hpSW2ytCsjGeNCVA HBUDd0iKT62D9b8BOH2mFA

Il processo di apprendimento umano è generalmente complesso e sfaccettato spesso l’insegnamento nozionistico o descrittivo risulta essere per molti insuffuciente.

Pensiamo ad esempio a quando a scuola approcciavamo la storia dell’arte: il processo dell’analisi di un’opera iniziava di solito con un riassunto della vita dell’autore, delle sue idee, del contesto socio-culturale ed artistico e del suo stile, per poi procedere alla visualizzazione dell’opera in sé, del suo significato e di come in questa vi siano elementi della vita dell’artista. Ecco, ora immaginiamo che nel nostro libro di storia dell’arte, al posto di una foto del quadro in questione, vi sia un paragrafo dove il quadro viene invece descritto a parole nei minimi dettagli.

Con questa metafora capiamo bene come il potenziale comunicativo della lezione di storia dell’arte venga immediatamente decimato se le uniche informazioni a disposizione riguardano descrizione statica dell’opera.

Queste caratteristiche dell’apprendimento si presentano nei più svariati ambiti, e allo stesso modo chi si occupa di Data Science spesso trova molto più esplicativi i grafici interattivi che spiagano il funzionamento di una rete neurale piuttosto che le formule matematiche. Pensiamo anche a quando impariamo a cucinare: seguire le regole “by the book” spesso non è abbastanza e bisogna assaggiare, annusare e guardare le proprie pietanze per imparare davvero. Insomma, il processo di apprendimento per noi esseri umani è fondamentalmente multimodale, nel senso che per conoscere appieno le sfaccettature della realtà ci affidiamo a più sensi contemporaneamente e siamo naturalmente in grado di associare tra loro immagini, testi, suoni o odori in maniera coerente.

Con lo sviluppo delle Intelligenze Artificiali e del relativo tema di come queste vengano addestrate, è naturale chiedersi se queste possano effettivamente replicare questo metodo di apprendimento multimodale ed eventaulmente migliorarne le prestazioni e le capacità di analisi.

Recentemente GPT-4o, l’ultimo modello di casa OpenAI, ha compiuto un importante passo in avanti, accettando come input una combinazione di fonti: audio, testo, immagini e video e permettendo di restituire output in formati diversi. Modelli di questo tenore “general-purpose” sono molto interessanti per la “massa” degli user, ma meno adatti a risolvere problematiche specifiche che troviamo nei vari settori. Vediamo quindi quali possono essere gli approcci per costruire da zero questo tipo di soluzioni.

Due approcci teorici al Machine Learning Multimodale

Il Multimodal Machine Learning (MML) è una tecnica di analisi e addestramento che mira a costruire modelli in grado di processare e mettere in relazione informazioni provenienti da fonti in diversa modalità. Un esempio di MML in ambito Sentiment Analysis potrebbe essere l’analisi e classificazione dei commenti ad un post sui social. Generalmente i commenti sono testuali ed esistono svariati algoritmi “mirati” e tecniche in grado di classificarli in termini positivi, negativi o neutri. Tuttavia nei commenti è possibile anche trovare meme, gif o messaggi vocali, aspetti riguardo l’autore del commento, i quali a loro volta esprimono qualcosa. Abbiamo tra le mani quindi fonti dato in formato di immagine (es. meme), video (o gif), testuale (commenti o emoji) ed audio (messaggi vocali, implementati ad esempio su Threads, o appartenenti al contenuto video) e tutti tendenzialmente esprimono delle reazioni emotive.

In linea di massima esistono due approcci teorici alla base al Multimodal-ML:

  • Joint Representations, ovvero porre i dati all’interno di uno spazio comune mantenendone le proprietà intrinseche ed il formato;
  • Coordinated Representations, ossia tenere separati gli spazi delle modalità e coordinarli successivamente usando delle costrizioni.

Entrambi gli approcci presentano vantaggi e svantaggi. Nel caso della Joint Representations siamo in grado di mantenere il formato originale del dato all’interno dello spazio di analisi e, attraverso un processo di encoding degli input e di successiva fusione, di sottoporli ad un algoritmo predittivo.

Questa modalità tuttavia richiede che le modalità del dato siano presenti in quantità sufficiente sia durante la fase di training che durante la fase di testing e validation, rendendo quindi i potenziali dati mancanti una seria problematica. L’approccio delle Coordinated Representations al contrario mantiene separate le modalità e pone delle costrizioni tra le modalità, ad esempio attraverso degli indici di similarità. In questo modo ci si assicura che le modalità non siano troppo distanti tra loro, tralasciando tuttavia la completezza del dato.

L’approccio da preferire dipende principalmente da quanto i nostri dati e le relative modalità siano uniformi. Se partiamo da una base omogenea è consigliabile optare per l’approccio joint, al contrario se riteniamo che i dati siano piuttosto dissimili tra loro è meglio scegliere la modalità coordinated.

Sfide ed opportunità del Multimodal ML

Una volta scelto quello che è l’approccio generale al tema del MML rimangono comunque diverse sfide e problematiche che la comunità scientifica sta approfondendo. Baltrusaitis et al. nel loro paper “Multimodal Machine Learning: A Survey and Taxonomy” individuano le seguenti cinque grandi sfide per il MML.

  1. Rappresentazione: la prima grande sfida consiste nel capire come rappresentare e raggruppare dati di formato multimodale in modo da sfruttarne ridondanza (intesa come valore aggiunto apportato da altri formati) e complementarietà (intesa come ceorenza tra i formati). Per esempio il linguaggio funziona in termini simbolici e quindi va interpretato con determinate logiche, mentre i dati audio vengono rappresentati come segnali e frequenze. In questo caso, la sfida potrebbe essere l’interpretazione di un testo letto non solo a livello semantico e grammatico, ma anche emotivo andando ad analizzare il cambiamento delle frequenze nella voce.
  2. Traduzione: non solo i dati multimodali sono eterogenei, ma anche le relazioni tra le diverse modalità sono interpretabili e soggettive. Ad esempio nel descrivere un’immagine, trasformando quindi la modalità da visuale a testuale, ognuno di noi potrebbe fornire una descrizione diversa e potrebbe non esserci una “traduzione” perfetta e condivisa da tutti.
  3. Allineamento: un’altra grande sfida è la possibilità di identificare relazioni dirette tra i sotto-elementi di diverse modalità. Ad esempio, si potrebbe allineare una ricetta culinaria con un video in cui tale ricetta viene effettivamente realizzata. La prima parte della ricetta dove viene descritto come fare l’impasto della pizza verrebbe associata ai primi due minuti del video dove il cuoco prende acqua e farina e così via.
  4. Fusione: unire le informazioni provenienti da due o più modalità per poi performare un’analisi predittiva è un’altra grande sfida. Per esempio, nell’analisi del speech-to-text vengono utilizzati sia le informazione visuali, il muoversi delle labbra, che quelle audio per prevedere la prossima parola nella sequenza.
  5. Co-learning: La quinta sfida consiste nel trasferire la conoscenza tra le modalità, le loro rappresentazioni e i loro modelli predittivi. Il Co-learning indaga come le procedure di apprendimento specifiche di una modalità possano assistere e migliorare le performance di un modello allenato in un’altra modalità. Questa area di studi è esemplificata da modelli di co-training, ovvero modelli di ML che utilizzano diversi datasets con diverse features complementari, o dal Zero-shot learning, un modello teorico di deep learning dove vengono presentati nella fase di test dei campioni appartenenti a classi non utilizzate nella fase di training.

Lo sviluppo delle Intelligenze Artificiali sta procedendo spedito e ogni nuova versione del Large Language Model che utilizziamo di solito migliora enormemente quella precedente, tuttavia spesso sembra che nonostante i miglioramenti queste non colgano il contesto delle situazioni. Come noi esseri umani utilizziamo diverse fonti e modalità per contestualizzare la realtà, anche un’IA potrebbe trarre beneficio da questo approccio multimodale. Le sfide non mancano, ma gli eventuali benefici sono estremamante allettanti e la comunità scientifica sta già proponendo interessanti approci alla questione.

 

Di Francesco Capuani, Data Scientist

Andrea Bergonzi

Andrea Bergonzi

Sono laureato in Economia, Finanza e Mercati Internazionali. Prima di entrare nel mondo della Data Science ho ricoperto il ruolo di analista dei mercati finanziari e research editor. Dal 2020 sono membro di Dataskills, dove mi occupo di Predictive Analytics e Business Intelligence.

Comments are closed.

Iscrivi alla newsletter














    Dichiaro di aver letto ed accetto l’informativa sulla privacy

    Andrea Bergonzi

    Andrea Bergonzi

    Sono laureato in Economia, Finanza e Mercati Internazionali. Prima di entrare nel mondo della Data Science ho ricoperto il ruolo di analista dei mercati finanziari e research editor. Dal 2020 sono membro di Dataskills, dove mi occupo di Predictive Analytics e Business Intelligence.