Maggio, 2024 - Voxel Informatica s.a.s.

ChatGPT-5 all’Orizzonte

Nel dinamico mondo dell’informatica, le innovazioni non smettono mai di sorprenderci. Recentemente, l’attenzione del settore si è concentrata sull’annuncio della prossima versione del modello di linguaggio di OpenAI: ChatGPT-5. Dopo il successo delle precedenti iterazioni, ChatGPT-5 promette di ridefinire ulteriormente le capacità dell’intelligenza artificiale generativa, portando con sé una serie di miglioramenti e nuove funzionalità.

L’Evoluzione di ChatGPT

La serie di modelli ChatGPT ha visto una crescita esponenziale in termini di capacità e applicazioni. ChatGPT-3 ha rappresentato un punto di svolta, dimostrando la capacità di generare testo coerente e contestualmente rilevante su una vasta gamma di argomenti. Con ChatGPT-4, abbiamo assistito a un ulteriore salto di qualità, con un aumento della complessità delle conversazioni che l’IA è in grado di gestire, una comprensione più profonda del contesto e una maggiore capacità di gestire compiti specifici.

Novità di ChatGPT-5

Con l’annuncio di ChatGPT-5, OpenAI ha rivelato alcune delle caratteristiche chiave che possiamo aspettarci:

Comprensione Contestuale Avanzata: ChatGPT-5 promette una comprensione contestuale ancora più raffinata, riducendo ulteriormente il rischio di risposte fuori luogo e migliorando la coerenza delle conversazioni.
Miglioramento della Personalizzazione: Una delle principali richieste degli utenti era la capacità di personalizzare il comportamento e il tono del modello. ChatGPT-5 risponde a questa esigenza con strumenti di personalizzazione più avanzati, permettendo agli utenti di adattare l’IA ai loro specifici bisogni e preferenze.
Efficienza Energetica: In un’era in cui la sostenibilità è fondamentale, ChatGPT-5 è stato sviluppato con un occhio di riguardo all’efficienza energetica. Questo non solo riduce l’impronta ecologica del modello, ma permette anche una maggiore accessibilità in termini di costi operativi.
Integrazione Multimodale: Un’altra caratteristica innovativa è l’integrazione multimodale, che permette a ChatGPT-5 di elaborare e generare non solo testo, ma anche immagini e suoni. Questo amplia enormemente le applicazioni del modello, rendendolo uno strumento versatile per creatori di contenuti, sviluppatori e ricercatori.

Implicazioni e Futuro

L’introduzione di ChatGPT-5 non è solo un traguardo tecnologico, ma anche un indicatore delle potenzialità future dell’intelligenza artificiale. Con modelli sempre più sofisticati, le applicazioni dell’IA stanno espandendosi in settori come l’assistenza sanitaria, l’educazione, il customer service e la creazione di contenuti. Tuttavia, con grandi potenzialità derivano anche grandi responsabilità. È fondamentale che lo sviluppo di queste tecnologie sia accompagnato da un forte impegno etico, garantendo che l’IA venga utilizzata in modo equo e responsabile.

Conclusione

ChatGPT-5 rappresenta un nuovo entusiasmante capitolo nell’evoluzione dell’intelligenza artificiale generativa. Con le sue innovazioni, potrebbe ridefinire il modo in cui interagiamo con le macchine, rendendo l’IA una presenza sempre più integrata e utile nella nostra vita quotidiana. Non resta che attendere il suo rilascio per esplorare appieno le sue potenzialità e vedere come trasformerà il panorama tecnologico.

Fine del Supporto Windows 10 21H2

Microsoft ha annunciato che il supporto per Windows 10 21H2 terminerà a giugno, il che significa la cessazione degli aggiornamenti mensili di sicurezza. Questo vale anche per le edizioni Enterprise ed Education, rendendo cruciale aggiornare i sistemi operativi per evitare vulnerabilità di sicurezza.

A partire dall’11 giugno 2024, i sistemi con Windows 10 21H2, noto anche come Windows 10 November 2021 Update, non riceveranno più aggiornamenti mensili contenenti correzioni di bug e patch di sicurezza. I clienti che richiederanno assistenza dopo questa data verranno invitati ad aggiornare i propri dispositivi alla versione più recente di Windows 10 o a passare a Windows 11.

Le edizioni Home, Pro, Pro Education e Pro for Workstations di Windows 10 21H2 hanno già raggiunto la fine del supporto durante il Patch Tuesday di giugno 2023, rendendo ancora più urgente per gli utenti aggiornare il proprio sistema operativo. Attualmente, Windows 10 22H2 e Windows 11 23H2 sono disponibili per tutti gli utenti tramite Windows Update, e Windows 10 22H2 viene installato automaticamente sui dispositivi consumer e aziendali non gestiti per garantire protezione e un funzionamento ottimale.

Inoltre, Microsoft ha iniziato l’installazione forzata di Windows 11 23H2 sui dispositivi idonei che hanno già raggiunto o sono prossimi alla fine del supporto per Windows 10 21H2. Questo processo è iniziato con l’aggiornamento automatico a Windows 11 22H2 prima del termine del supporto l’11 ottobre. L’azienda ha rilasciato Windows 11 23H2 il 31 ottobre, un mese dopo averlo distribuito ai Windows Insider nel Release Preview Channel per test aziendali. L’aggiornamento attiva le funzionalità fornite nei precedenti aggiornamenti 22H2 che erano ancora in attesa di abilitazione.

Gli utenti e le aziende sono invitati ad aggiornare i propri sistemi operativi il prima possibile per garantire sicurezza e prestazioni ottimali.

Google I/O 2024: Novità AI Gemini

Guardando le gradinate affollate dell’anfiteatro Shoreline, a pochi passi dal campus di Google, Sundar Pichai ha scherzato: “Oggi abbiamo pronunciato la parola AI circa 120 volte. Credo si tratti di un record”.

Il pubblico ha riso di gusto, poiché il calcolo era stato effettuato da un’intelligenza artificiale che aveva analizzato tutti i discorsi dei relatori di Google I/O, la conferenza annuale che il colosso tech fondato nel 1998 da Sergey Brin e Larry Page dedica agli sviluppatori.

L’ironia di Pichai, amministratore delegato di Google e Alphabet, ha chiuso un’edizione dominata da una tecnologia che è letteralmente sulla bocca di tutti e in ogni prodotto che Google sta sviluppando. A partire dai modelli di IA creati da Google DeepMind, che sono il vero “motore” dell’intelligenza artificiale targata Google. Gemini Nano, Gemini Pro, Gemini Pro 1.5 e Gemini Ultra, annunciati nei mesi scorsi, rappresentano l’intelligenza artificiale più avanzata prodotta finora dal laboratorio di Google DeepMind.

Durante Google I/O è stato annunciato anche un nuovo modello, Gemini 1.5 Flash, da Demis Hassabis, CEO di Google DeepMind e pioniere dell’intelligenza artificiale generativa. Sebbene sia un modello più leggero rispetto a Gemini 1.5 Pro, Gemini 1.5 Flash offre comunque performance notevoli in termini di “ragionamento multimodale su grandi quantità di informazioni”. Un’IA “multimodale”, infatti, è capace di gestire diversi input – audio, testo, immagini e video – e di generare contenuti altrettanto diversificati.

“Gemini 1.5 Flash eccelle nei riassunti, nelle conversazioni con gli utenti, nella descrizione di immagini e video, nell’estrazione di dati da documenti lunghi e tabelle, e molto altro”, ha spiegato Hassabis. Ci riesce grazie a un processo chiamato “distillazione”, in cui “le conoscenze e le abilità più importanti di un modello più grande vengono trasferite a un modello più piccolo ed efficiente”.

I modelli di IA targati Gemini sono alla base anche del nuovo “Project Astra”. Demis Hassabis ha svelato il progetto attraverso un video che ha strappato diversi applausi al pubblico di Google I/O, soprattutto quando l’IA ha aiutato una ragazza a ritrovare un oggetto smarrito.

“Dove ho dimenticato i miei occhiali?”. “Sono lì, sulla scrivania, accanto alla mela rossa”.

Questa conversazione, tipicamente umana, si è svolta tra una persona e un’intelligenza artificiale. Gli occhiali da vista appartenevano a una ricercatrice di Google DeepMind, mentre la voce sintetica che ha suggerito dove cercare l’oggetto smarrito apparteneva a Gemini.

Prima di individuare gli occhiali, Gemini aveva riconosciuto, “guardando” fuori dalla finestra, il quartiere di Londra in cui si trovava. Aveva decifrato alcune linee di codice di programmazione presenti sul monitor di un computer, spiegando “a voce alta” quale fosse la loro natura e il loro compito.

Tutto ciò è stato possibile grazie alla capacità dell’intelligenza artificiale di analizzare un flusso di immagini in diretta. La fotocamera dello smartphone della ricercatrice ha permesso a Gemini di “vedere”. Uno dei modelli sviluppati recentemente da Google DeepMind – Gemini Nano, Pro e Ultra – ha consentito all’IA di esprimersi con un linguaggio naturale e fluente, un’abilità che fino a poco tempo fa era esclusiva degli esseri umani.

L’esempio degli occhiali smarriti aiuta a comprendere il futuro che ci attende. Un futuro che si è materializzato davanti agli occhi di 5mila persone accorse a Mountain View, la città della Silicon Valley che ospita il quartier generale di Google e che, per un giorno, è diventata il centro del mondo dell’intelligenza artificiale.

Google ha di fatto annunciato l’epoca degli “AI Agent”, i prossimi assistenti virtuali dotati di IA a cui Sundar Pichai ha riservato una parte del suo discorso. “Sono sistemi intelligenti capaci di ragionare, pianificare, memorizzare e risolvere problemi – ha detto Pichai – per fare qualcosa al posto vostro ma comunque sempre sotto la vostra supervisione”.

Pichai ha mostrato, per esempio, quanto possa essere utile un “AI Agent” quando si deve restituire un paio di scarpe acquistate online, ma di un numero sbagliato. Tutte le operazioni noiose e laboriose che si fanno in questi casi – generare un’etichetta di reso e prendere un appuntamento con un corriere – l’IA potrà farle da sola.

“Ma questo richiede comunque la vostra supervisione” ha raccomandato Pichai, anticipando le preoccupazioni su quali potrebbero essere gli effetti indesiderati di un futuro in cui alcune decisioni che spettano agli esseri umani saranno delegate alle macchine.

Gli agenti dotati di IA rappresentano un significativo passo in avanti rispetto ad assistenti virtuali come Alexa, Siri o Google Assistant, programmati per comprendere il linguaggio naturale ma solo al fine di rispondere a domande specifiche e compiere azioni determinate.

Con gli assistenti che abbiamo utilizzato finora, insomma, non era possibile conversare veramente. Per tre motivi: il tempo di risposta è molto elevato, la loro “memoria” è inesistente e nessuno di loro può guardare il mondo. Ora tutto questo sta per cambiare. Non è solo un annuncio, o uno scenario frutto di un video editato per accrescere le capacità dell’intelligenza artificiale. Google ha fatto questo errore a dicembre scorso, quando ha presentato Gemini con un video che poi si è rivelato fake, poiché le risposte dell’IA erano state accelerate. Ma stavolta parliamo di una “magia” che avviene davvero, e soprattutto in tempo reale.

Per raccontarla al meglio, Google nella sua demo si è lasciata sfuggire un dettaglio curioso, che ha subito alimentato speculazioni. Gli occhiali protagonisti del video girato da Google DeepMind, infatti, non sono occhiali qualsiasi: hanno videocamere, microfono e speaker integrati, che permettono a chi li indossa di interagire con l’IA tenendo le mani libere.

Si tratta di un dispositivo simile ai Ray-Ban prodotti da Luxottica in collaborazione con Meta, attraverso cui accedere alla Meta AI che fornisce informazioni in tempo reale – ma con tempi di risposta decisamente superiori a quelli di Gemini – su ciò che entra nella visuale di chi indossa gli occhiali smart.

Notando il clamore suscitato dagli occhiali, Google si è trovata costretta a diffondere una precisazione: “Gli occhiali mostrati sono un prototipo di ricerca funzionante sviluppato dal nostro team AR. Al momento non abbiamo informazioni da condividere riguardo a un eventuale lancio sul mercato. Guardando al futuro, prevediamo che le funzionalità dimostrate con Project Astra possano essere utilizzate attraverso dispositivi indossabili e altre tecnologie di generazione futura”.

“È facile immaginare un futuro in cui puoi avere un assistente esperto al tuo fianco tramite il tuo telefono o gli occhiali – ha detto Demis Hassabis al pubblico di Google I/O -. Alcune di queste funzionalità arriveranno sui prodotti Google, come l’app Gemini, entro la fine dell’anno”.

Hassabis ha poi spiegato più nel dettaglio il senso di “Project Astra”. “Per essere davvero utili, gli agenti virtuali devono capire e rispondere al mondo complesso e dinamico proprio come le persone – ha detto Hassabis – devono assimilare e ricordare ciò che vedono e sentono per comprendere il contesto e agire di conseguenza. Devono inoltre essere proattivi, personalizzabili e istruibili, in modo che gli utenti possano interagire con loro in modo naturale e senza ritardi”.

“Sebbene abbiamo fatto progressi incredibili nello sviluppo di sistemi di intelligenza artificiale in grado di comprendere informazioni multimodali (audio e video), ridurre il tempo di risposta a un livello colloquiale è una sfida ingegneristica difficile. Negli ultimi anni, abbiamo lavorato per migliorare il modo in cui i nostri modelli percepiscono, ragionano e conversano per rendere il ritmo e la qualità dell’interazione più naturali. Questi agenti sono stati costruiti utilizzando il nostro modello Gemini e altri modelli creati specificamente per elaborare le informazioni più velocemente, codificando continuamente i fotogrammi video, combinando l’input video e vocale in una cronologia degli eventi e memorizzando queste informazioni per un richiamo efficiente”.

Sul palco del Google I/O, Hassabis ha trovato il tempo di annunciare due nuovi modelli di IA generativa. Il primo si chiama Veo ed è un modello che genera video di alta qualità a partire da un testo, con risoluzione 1080p e durata oltre il minuto. “Veo offre un livello di controllo creativo senza precedenti – ha detto Hassabis – e riesce a comprendere termini come “timelapse” o “riprese aeree di un paesaggio”.

Il secondo modello annunciato dal CEO di Google DeepMind è un aggiornamento di un’IA già esistente: Imagen 3, l’IA capace di generare immagini realistiche. Imagen 3 prende il posto di Imagen 2, il vecchio modello finito qualche tempo fa al centro delle critiche per la sua tendenza a rappresentare, nelle immagini che produceva, un’umanità fin troppo diversificata (nazisti e vichinghi neri, per esempio).

Entrambi i modelli di IA per la generazione di video e immagini annunciati a Google I/O non saranno immediatamente disponibili in Europa e dunque in Italia.

OpenAI introduce GPT-4o

OpenAI ha mantenuto le sue promesse, presentando il nuovo modello GPT-4o, che sarà disponibile gratuitamente per tutti gli utenti registrati. Durante un evento in streaming, sono state annunciate numerose novità che saranno presto accessibili al pubblico. Il nuovo modello, dove la “o” sta per “omni” per il suo approccio a 360 gradi, offre miglioramenti significativi rispetto a GPT-4 Turbo. Tra le nuove funzionalità spiccano le conversazioni in tempo reale, modalità audio e video, e chatbot emozionali in grado di rilevare e interpretare le espressioni facciali umane. Inoltre, è in arrivo un’app ChatGPT dedicata ai Mac.

Le dichiarazioni di Sam Altman

Il CEO di OpenAI, Sam Altman, aveva già anticipato in mattinata che gli aggiornamenti non avrebbero riguardato né GPT-5 né un motore di ricerca sviluppato da OpenAI. “Abbiamo lavorato sodo su alcune novità che pensiamo piaceranno molto alla gente. Mi sembra una magia,” ha scritto Altman. L’evento, che si è tenuto alle 19:00 italiane, è andato in scena un giorno prima della conferenza Google I/O di Mountain View. La replica dell’evento è disponibile sul sito di OpenAI e su YouTube.

Le novità di GPT-4o

GPT-4o introduce la capacità di interpretare le espressioni facciali attraverso le fotocamere degli smartphone, permettendo al modello di rilevare le emozioni e modulare il tono e le risposte di conseguenza, eventualmente aggiungendo effetti sonori e risate. Inoltre, il modello può generare risposte vocali in tempo reale con un tempo di risposta di 320 millisecondi, paragonabile a quello umano, superando di gran lunga i modelli precedenti. Queste caratteristiche fanno pensare subito al film “Her”.

“Dato che GPT-4o è il nostro primo modello che combina tutte queste modalità, stiamo ancora solo esplorando la superficie di ciò che il modello può fare e dei suoi limiti,” hanno affermato i dirigenti di OpenAI durante la presentazione. Il modello è anche molto efficace nelle traduzioni, supportando 50 lingue e coprendo il 97% della popolazione globale. GPT-4o sarà disponibile anche come servizio tramite API, e dopo un primo lancio per utenti a pagamento, sarà accessibile anche per gli utenti free. Questi ultimi potranno sfruttare funzionalità come la navigazione web, l’analisi dei dati, l’accesso al GPT Store e le funzioni di memoria, precedentemente riservate agli abbonati.

Nuova app desktop per Mac

OpenAI ha anche presentato un’app desktop per Mac che permette di utilizzare ChatGPT per varie funzioni, come chiedere cosa sia visualizzato sul display. L’app può essere richiamata con la scorciatoia Option + barra spaziatrice e riconosce elementi, scritte e immagini. Sarà disponibile gratuitamente, ma inizialmente solo per gli abbonati, che potranno utilizzarla in anteprima.

Verso un motore di ricerca AI?

Per ora, non è ancora il momento di un motore di ricerca basato su ChatGPT in grado di competere con Google. Tuttavia, sembra che uno strumento del genere sia in fase di sviluppo e potrebbe essere lanciato presto, sfruttando l’intelligenza artificiale per trovare, analizzare e visualizzare materiali di terze parti, rispondendo in modo più accurato alle richieste degli utenti.

Domani sarà il turno di Google I/O, dove il gigante delle ricerche online presenterà i suoi nuovi prodotti e soluzioni basati sull’intelligenza artificiale. Restate sintonizzati per ulteriori aggiornamenti!

AI su Safari 18

Secondo quanto riportato da Mark Gurman di Bloomberg, Apple presenterà una serie di interessanti novità riguardanti le app integrate in iOS 18 durante la WWDC 2024, che si terrà dal 10 al 14 giugno. Tra queste, particolare attenzione verrà data anche all’aggiornamento del browser di Apple, Safari 18, il quale includerà una nuova funzionalità basata sull’intelligenza artificiale generativa.

Una delle caratteristiche più significative di Safari 18 sarà la “Intelligent Search”. Questa nuova funzionalità, disponibile sia su iOS 18 che su macOS 15, si integrerà attraverso un nuovo menu nella barra degli indirizzi. Sfruttando il modello Ajax, gli utenti potranno interrogare la pagina web per ottenere informazioni specifiche e generare un riassunto del contenuto.

Un’altra funzionalità in fase di test è il “Web Eraser”. Questa opzione permetterà agli utenti di eliminare parti specifiche di una pagina web, come immagini, testo e banner pubblicitari, in modo persistente. Safari conserverà le modifiche anche dopo la chiusura della scheda o del browser, avvertendo gli utenti al ritorno sulla pagina modificata e offrendo la possibilità di ripristinare l’aspetto originale.

Inoltre, Safari 18 presenterà un’interfaccia utente aggiornata per semplificare l’accesso alle varie opzioni, con un design uniforme sia su macOS che su iPadOS. Si prevede che tutte queste novità verranno illustrate nel dettaglio durante la conferenza di giugno.

Apple ha anche avviato lo sviluppo di altre funzionalità basate sull’intelligenza artificiale che potrebbero essere rilasciate nel corso del 2025. Tra queste, una simile a “Visual Look Up” dell’app Foto, chiamata “Visual Search”, che consentirà agli utenti di ottenere informazioni sulle immagini visualizzate direttamente in Safari.

Mese: Maggio 2024