Gemini: Google I/O celebra l’era degli AI Agent

Google I/O dominato dall’AI

Guardando le gradinate affollate dell’anfiteatro Shoreline, vicino al campus Google, Sundar Pichai ha scherzato.
“Oggi abbiamo pronunciato la parola AI circa 120 volte. Credo sia un record”.

Il pubblico ha riso. Il conteggio era stato fatto da un’intelligenza artificiale.
L’IA aveva analizzato tutti i discorsi di Google I/O, la conferenza annuale per sviluppatori.

L’ironia di Pichai ha chiuso un’edizione dominata dall’intelligenza artificiale.
Una tecnologia ormai presente in ogni prodotto Google.

I modelli Gemini di Google DeepMind

Al centro dell’evento ci sono i modelli di IA di Google DeepMind.
Sono il vero motore dell’intelligenza artificiale targata Google.

Gemini Nano, Pro, Pro 1.5 e Ultra rappresentano i modelli più avanzati mai sviluppati dal laboratorio.
A questi si aggiunge una nuova versione.

Gemini 1.5 Flash: più leggero, ma potente

Durante Google I/O è stato annunciato Gemini 1.5 Flash.
A presentarlo è stato Demis Hassabis.

È un modello più leggero rispetto a Gemini 1.5 Pro.
Nonostante questo, offre prestazioni elevate nel ragionamento multimodale.

Un’IA multimodale gestisce testo, immagini, audio e video.
Può anche generare contenuti in tutti questi formati.

Secondo Hassabis, Gemini 1.5 Flash eccelle nei riassunti e nelle conversazioni.
È efficace anche nell’analisi di documenti lunghi e tabelle complesse.

Cos’è Project Astra

I modelli Gemini sono alla base di Project Astra.
Il progetto è stato mostrato con una demo molto applaudita.

Nel video, l’IA aiuta una ricercatrice a ritrovare degli occhiali smarriti.
La conversazione appare naturale e fluida.

Prima di rispondere, Gemini osserva l’ambiente.
Riconosce un quartiere di Londra e interpreta codice sullo schermo.

Questo è possibile grazie all’analisi in tempo reale delle immagini.
Lo smartphone permette all’IA di “vedere” il mondo.

L’era degli AI Agent

Google ha annunciato l’inizio dell’epoca degli AI Agent.
Sono assistenti capaci di ragionare, pianificare e memorizzare informazioni.

Secondo Pichai, possono svolgere compiti al posto dell’utente.
Sempre, però, sotto supervisione umana.

Un esempio pratico è la gestione di un reso online.
L’AI può generare l’etichetta e prenotare il corriere.

Perché sono diversi da Siri e Alexa

Gli AI Agent segnano un salto rispetto agli assistenti tradizionali.
Siri, Alexa e Google Assistant rispondono a comandi specifici.

Non possono conversare davvero.
Hanno tempi di risposta lenti e nessuna memoria visiva.

Ora questo limite sta per essere superato.
Le interazioni diventano continue e contestuali.

Occhiali smart e futuro dell’AI

La demo ha mostrato anche occhiali smart con fotocamera e microfono.
Il dispositivo ha acceso molte speculazioni.

Google ha chiarito che si tratta di un prototipo di ricerca.
Non esistono ancora piani per un lancio commerciale.

In futuro, però, Project Astra potrebbe arrivare su dispositivi indossabili.
Alcune funzioni saranno integrate nell’app Gemini entro fine anno.

Veo e Imagen 3: l’AI creativa

Durante l’evento sono stati annunciati due nuovi modelli generativi.
Il primo è Veo, dedicato alla creazione di video da testo.

Veo genera video in 1080p e supera il minuto di durata.
Comprende istruzioni creative complesse.

Il secondo modello è Imagen 3.
Genera immagini realistiche e sostituisce Imagen 2.

Entrambi i modelli non saranno subito disponibili in Europa.