fbpx

Voxel Informatica s.a.s.

Google I/O 2024: Novità AI Gemini

Guardando le gradinate affollate dell’anfiteatro Shoreline, a pochi passi dal campus di Google, Sundar Pichai ha scherzato: “Oggi abbiamo pronunciato la parola AI circa 120 volte. Credo si tratti di un record”.

Il pubblico ha riso di gusto, poiché il calcolo era stato effettuato da un’intelligenza artificiale che aveva analizzato tutti i discorsi dei relatori di Google I/O, la conferenza annuale che il colosso tech fondato nel 1998 da Sergey Brin e Larry Page dedica agli sviluppatori.

L’ironia di Pichai, amministratore delegato di Google e Alphabet, ha chiuso un’edizione dominata da una tecnologia che è letteralmente sulla bocca di tutti e in ogni prodotto che Google sta sviluppando. A partire dai modelli di IA creati da Google DeepMind, che sono il vero “motore” dell’intelligenza artificiale targata Google. Gemini Nano, Gemini Pro, Gemini Pro 1.5 e Gemini Ultra, annunciati nei mesi scorsi, rappresentano l’intelligenza artificiale più avanzata prodotta finora dal laboratorio di Google DeepMind.

Durante Google I/O è stato annunciato anche un nuovo modello, Gemini 1.5 Flash, da Demis Hassabis, CEO di Google DeepMind e pioniere dell’intelligenza artificiale generativa. Sebbene sia un modello più leggero rispetto a Gemini 1.5 Pro, Gemini 1.5 Flash offre comunque performance notevoli in termini di “ragionamento multimodale su grandi quantità di informazioni”. Un’IA “multimodale”, infatti, è capace di gestire diversi input – audio, testo, immagini e video – e di generare contenuti altrettanto diversificati.

“Gemini 1.5 Flash eccelle nei riassunti, nelle conversazioni con gli utenti, nella descrizione di immagini e video, nell’estrazione di dati da documenti lunghi e tabelle, e molto altro”, ha spiegato Hassabis. Ci riesce grazie a un processo chiamato “distillazione”, in cui “le conoscenze e le abilità più importanti di un modello più grande vengono trasferite a un modello più piccolo ed efficiente”.

I modelli di IA targati Gemini sono alla base anche del nuovo “Project Astra”. Demis Hassabis ha svelato il progetto attraverso un video che ha strappato diversi applausi al pubblico di Google I/O, soprattutto quando l’IA ha aiutato una ragazza a ritrovare un oggetto smarrito.

“Dove ho dimenticato i miei occhiali?”. “Sono lì, sulla scrivania, accanto alla mela rossa”.

Questa conversazione, tipicamente umana, si è svolta tra una persona e un’intelligenza artificiale. Gli occhiali da vista appartenevano a una ricercatrice di Google DeepMind, mentre la voce sintetica che ha suggerito dove cercare l’oggetto smarrito apparteneva a Gemini.

Prima di individuare gli occhiali, Gemini aveva riconosciuto, “guardando” fuori dalla finestra, il quartiere di Londra in cui si trovava. Aveva decifrato alcune linee di codice di programmazione presenti sul monitor di un computer, spiegando “a voce alta” quale fosse la loro natura e il loro compito.

Tutto ciò è stato possibile grazie alla capacità dell’intelligenza artificiale di analizzare un flusso di immagini in diretta. La fotocamera dello smartphone della ricercatrice ha permesso a Gemini di “vedere”. Uno dei modelli sviluppati recentemente da Google DeepMind – Gemini Nano, Pro e Ultra – ha consentito all’IA di esprimersi con un linguaggio naturale e fluente, un’abilità che fino a poco tempo fa era esclusiva degli esseri umani.

L’esempio degli occhiali smarriti aiuta a comprendere il futuro che ci attende. Un futuro che si è materializzato davanti agli occhi di 5mila persone accorse a Mountain View, la città della Silicon Valley che ospita il quartier generale di Google e che, per un giorno, è diventata il centro del mondo dell’intelligenza artificiale.

Google ha di fatto annunciato l’epoca degli “AI Agent”, i prossimi assistenti virtuali dotati di IA a cui Sundar Pichai ha riservato una parte del suo discorso. “Sono sistemi intelligenti capaci di ragionare, pianificare, memorizzare e risolvere problemi – ha detto Pichai – per fare qualcosa al posto vostro ma comunque sempre sotto la vostra supervisione”.

Pichai ha mostrato, per esempio, quanto possa essere utile un “AI Agent” quando si deve restituire un paio di scarpe acquistate online, ma di un numero sbagliato. Tutte le operazioni noiose e laboriose che si fanno in questi casi – generare un’etichetta di reso e prendere un appuntamento con un corriere – l’IA potrà farle da sola.

“Ma questo richiede comunque la vostra supervisione” ha raccomandato Pichai, anticipando le preoccupazioni su quali potrebbero essere gli effetti indesiderati di un futuro in cui alcune decisioni che spettano agli esseri umani saranno delegate alle macchine.

Gli agenti dotati di IA rappresentano un significativo passo in avanti rispetto ad assistenti virtuali come Alexa, Siri o Google Assistant, programmati per comprendere il linguaggio naturale ma solo al fine di rispondere a domande specifiche e compiere azioni determinate.

Con gli assistenti che abbiamo utilizzato finora, insomma, non era possibile conversare veramente. Per tre motivi: il tempo di risposta è molto elevato, la loro “memoria” è inesistente e nessuno di loro può guardare il mondo. Ora tutto questo sta per cambiare. Non è solo un annuncio, o uno scenario frutto di un video editato per accrescere le capacità dell’intelligenza artificiale. Google ha fatto questo errore a dicembre scorso, quando ha presentato Gemini con un video che poi si è rivelato fake, poiché le risposte dell’IA erano state accelerate. Ma stavolta parliamo di una “magia” che avviene davvero, e soprattutto in tempo reale.

Per raccontarla al meglio, Google nella sua demo si è lasciata sfuggire un dettaglio curioso, che ha subito alimentato speculazioni. Gli occhiali protagonisti del video girato da Google DeepMind, infatti, non sono occhiali qualsiasi: hanno videocamere, microfono e speaker integrati, che permettono a chi li indossa di interagire con l’IA tenendo le mani libere.

Si tratta di un dispositivo simile ai Ray-Ban prodotti da Luxottica in collaborazione con Meta, attraverso cui accedere alla Meta AI che fornisce informazioni in tempo reale – ma con tempi di risposta decisamente superiori a quelli di Gemini – su ciò che entra nella visuale di chi indossa gli occhiali smart.

Notando il clamore suscitato dagli occhiali, Google si è trovata costretta a diffondere una precisazione: “Gli occhiali mostrati sono un prototipo di ricerca funzionante sviluppato dal nostro team AR. Al momento non abbiamo informazioni da condividere riguardo a un eventuale lancio sul mercato. Guardando al futuro, prevediamo che le funzionalità dimostrate con Project Astra possano essere utilizzate attraverso dispositivi indossabili e altre tecnologie di generazione futura”.

“È facile immaginare un futuro in cui puoi avere un assistente esperto al tuo fianco tramite il tuo telefono o gli occhiali – ha detto Demis Hassabis al pubblico di Google I/O -. Alcune di queste funzionalità arriveranno sui prodotti Google, come l’app Gemini, entro la fine dell’anno”.

Hassabis ha poi spiegato più nel dettaglio il senso di “Project Astra”. “Per essere davvero utili, gli agenti virtuali devono capire e rispondere al mondo complesso e dinamico proprio come le persone – ha detto Hassabis – devono assimilare e ricordare ciò che vedono e sentono per comprendere il contesto e agire di conseguenza. Devono inoltre essere proattivi, personalizzabili e istruibili, in modo che gli utenti possano interagire con loro in modo naturale e senza ritardi”.

“Sebbene abbiamo fatto progressi incredibili nello sviluppo di sistemi di intelligenza artificiale in grado di comprendere informazioni multimodali (audio e video), ridurre il tempo di risposta a un livello colloquiale è una sfida ingegneristica difficile. Negli ultimi anni, abbiamo lavorato per migliorare il modo in cui i nostri modelli percepiscono, ragionano e conversano per rendere il ritmo e la qualità dell’interazione più naturali. Questi agenti sono stati costruiti utilizzando il nostro modello Gemini e altri modelli creati specificamente per elaborare le informazioni più velocemente, codificando continuamente i fotogrammi video, combinando l’input video e vocale in una cronologia degli eventi e memorizzando queste informazioni per un richiamo efficiente”.

Sul palco del Google I/O, Hassabis ha trovato il tempo di annunciare due nuovi modelli di IA generativa. Il primo si chiama Veo ed è un modello che genera video di alta qualità a partire da un testo, con risoluzione 1080p e durata oltre il minuto. “Veo offre un livello di controllo creativo senza precedenti – ha detto Hassabis – e riesce a comprendere termini come “timelapse” o “riprese aeree di un paesaggio”.

Il secondo modello annunciato dal CEO di Google DeepMind è un aggiornamento di un’IA già esistente: Imagen 3, l’IA capace di generare immagini realistiche. Imagen 3 prende il posto di Imagen 2, il vecchio modello finito qualche tempo fa al centro delle critiche per la sua tendenza a rappresentare, nelle immagini che produceva, un’umanità fin troppo diversificata (nazisti e vichinghi neri, per esempio).

Entrambi i modelli di IA per la generazione di video e immagini annunciati a Google I/O non saranno immediatamente disponibili in Europa e dunque in Italia.