Voxel Informatica s.a.s.

Integrazione IA su Firefox

Mozilla, seguendo l’esempio di molte altre aziende tecnologiche, sta integrando l’intelligenza artificiale nel suo browser Firefox per migliorare l’accessibilità.

Didascalie Generate dall’IA per le Immagini su Firefox

In un recente post su Mozilla Hacks, Tarek ZIade ha illustrato come Firefox utilizzerà l’IA per generare didascalie di immagini, migliorando l’accessibilità per chi si affida a tecnologie assistive. Le didascalie, o “testo alternativo”, forniscono il contesto necessario ai lettori, ma spesso vengono trascurate, lasciando quasi la metà delle immagini senza descrizioni adeguate. Grazie ai recenti progressi dell’IA, è ora possibile eseguire modelli di apprendimento automatico locali per generare automaticamente queste didascalie, senza inviare informazioni sensibili ai server.

Novità nella Release 130 di Firefox

La release 130 di Firefox, disponibile nel Nightly Channel, introdurrà una nuova funzionalità per l’editor PDF che utilizza piccoli modelli di apprendimento automatico basati su Transformer per generare testo alternativo. Mozilla assicura che questa funzione non richiederà un uso intensivo delle risorse, rendendola accessibile anche sui dispositivi meno potenti.

Efficienza e Privacy con Modelli Locali

I modelli di apprendimento automatico utilizzati possono generare testo alternativo con oltre 200 milioni di parametri, occupando meno di 200 MB di spazio su disco e producendo risultati in pochi secondi. L’uso di modelli locali presenta diversi vantaggi, tra cui una migliore privacy, efficienza delle risorse, maggiore trasparenza, minori emissioni di CO2 e aggiornamenti frequenti con continui miglioramenti.

Conclusione

L’integrazione dell’IA in Firefox per generare didascalie di immagini rappresenta un significativo passo avanti nell’accessibilità del web. Mozilla continua a dimostrare il suo impegno nel migliorare l’esperienza degli utenti, rendendo il web più inclusivo per tutti.

Gemini: Google I/O celebra l’era degli AI Agent

Google I/O dominato dall’AI

Guardando le gradinate affollate dell’anfiteatro Shoreline, vicino al campus Google, Sundar Pichai ha scherzato.
“Oggi abbiamo pronunciato la parola AI circa 120 volte. Credo sia un record”.

Il pubblico ha riso. Il conteggio era stato fatto da un’intelligenza artificiale.
L’IA aveva analizzato tutti i discorsi di Google I/O, la conferenza annuale per sviluppatori.

L’ironia di Pichai ha chiuso un’edizione dominata dall’intelligenza artificiale.
Una tecnologia ormai presente in ogni prodotto Google.


I modelli Gemini di Google DeepMind

Al centro dell’evento ci sono i modelli di IA di Google DeepMind.
Sono il vero motore dell’intelligenza artificiale targata Google.

Gemini Nano, Pro, Pro 1.5 e Ultra rappresentano i modelli più avanzati mai sviluppati dal laboratorio.
A questi si aggiunge una nuova versione.


Gemini 1.5 Flash: più leggero, ma potente

Durante Google I/O è stato annunciato Gemini 1.5 Flash.
A presentarlo è stato Demis Hassabis.

È un modello più leggero rispetto a Gemini 1.5 Pro.
Nonostante questo, offre prestazioni elevate nel ragionamento multimodale.

Un’IA multimodale gestisce testo, immagini, audio e video.
Può anche generare contenuti in tutti questi formati.

Secondo Hassabis, Gemini 1.5 Flash eccelle nei riassunti e nelle conversazioni.
È efficace anche nell’analisi di documenti lunghi e tabelle complesse.


Cos’è Project Astra

I modelli Gemini sono alla base di Project Astra.
Il progetto è stato mostrato con una demo molto applaudita.

Nel video, l’IA aiuta una ricercatrice a ritrovare degli occhiali smarriti.
La conversazione appare naturale e fluida.

Prima di rispondere, Gemini osserva l’ambiente.
Riconosce un quartiere di Londra e interpreta codice sullo schermo.

Questo è possibile grazie all’analisi in tempo reale delle immagini.
Lo smartphone permette all’IA di “vedere” il mondo.


L’era degli AI Agent

Google ha annunciato l’inizio dell’epoca degli AI Agent.
Sono assistenti capaci di ragionare, pianificare e memorizzare informazioni.

Secondo Pichai, possono svolgere compiti al posto dell’utente.
Sempre, però, sotto supervisione umana.

Un esempio pratico è la gestione di un reso online.
L’AI può generare l’etichetta e prenotare il corriere.


Perché sono diversi da Siri e Alexa

Gli AI Agent segnano un salto rispetto agli assistenti tradizionali.
Siri, Alexa e Google Assistant rispondono a comandi specifici.

Non possono conversare davvero.
Hanno tempi di risposta lenti e nessuna memoria visiva.

Ora questo limite sta per essere superato.
Le interazioni diventano continue e contestuali.


Occhiali smart e futuro dell’AI

La demo ha mostrato anche occhiali smart con fotocamera e microfono.
Il dispositivo ha acceso molte speculazioni.

Google ha chiarito che si tratta di un prototipo di ricerca.
Non esistono ancora piani per un lancio commerciale.

In futuro, però, Project Astra potrebbe arrivare su dispositivi indossabili.
Alcune funzioni saranno integrate nell’app Gemini entro fine anno.


Veo e Imagen 3: l’AI creativa

Durante l’evento sono stati annunciati due nuovi modelli generativi.
Il primo è Veo, dedicato alla creazione di video da testo.

Veo genera video in 1080p e supera il minuto di durata.
Comprende istruzioni creative complesse.

Il secondo modello è Imagen 3.
Genera immagini realistiche e sostituisce Imagen 2.

Entrambi i modelli non saranno subito disponibili in Europa.

OpenAI introduce GPT-4o

OpenAI ha mantenuto le sue promesse, presentando il nuovo modello GPT-4o, che sarà disponibile gratuitamente per tutti gli utenti registrati. Durante un evento in streaming, sono state annunciate numerose novità che saranno presto accessibili al pubblico. Il nuovo modello, dove la “o” sta per “omni” per il suo approccio a 360 gradi, offre miglioramenti significativi rispetto a GPT-4 Turbo. Tra le nuove funzionalità spiccano le conversazioni in tempo reale, modalità audio e video, e chatbot emozionali in grado di rilevare e interpretare le espressioni facciali umane. Inoltre, è in arrivo un’app ChatGPT dedicata ai Mac.

Le dichiarazioni di Sam Altman

Il CEO di OpenAI, Sam Altman, aveva già anticipato in mattinata che gli aggiornamenti non avrebbero riguardato né GPT-5 né un motore di ricerca sviluppato da OpenAI. “Abbiamo lavorato sodo su alcune novità che pensiamo piaceranno molto alla gente. Mi sembra una magia,” ha scritto Altman. L’evento, che si è tenuto alle 19:00 italiane, è andato in scena un giorno prima della conferenza Google I/O di Mountain View. La replica dell’evento è disponibile sul sito di OpenAI e su YouTube.

Le novità di GPT-4o

GPT-4o introduce la capacità di interpretare le espressioni facciali attraverso le fotocamere degli smartphone, permettendo al modello di rilevare le emozioni e modulare il tono e le risposte di conseguenza, eventualmente aggiungendo effetti sonori e risate. Inoltre, il modello può generare risposte vocali in tempo reale con un tempo di risposta di 320 millisecondi, paragonabile a quello umano, superando di gran lunga i modelli precedenti. Queste caratteristiche fanno pensare subito al film “Her”.

“Dato che GPT-4o è il nostro primo modello che combina tutte queste modalità, stiamo ancora solo esplorando la superficie di ciò che il modello può fare e dei suoi limiti,” hanno affermato i dirigenti di OpenAI durante la presentazione. Il modello è anche molto efficace nelle traduzioni, supportando 50 lingue e coprendo il 97% della popolazione globale. GPT-4o sarà disponibile anche come servizio tramite API, e dopo un primo lancio per utenti a pagamento, sarà accessibile anche per gli utenti free. Questi ultimi potranno sfruttare funzionalità come la navigazione web, l’analisi dei dati, l’accesso al GPT Store e le funzioni di memoria, precedentemente riservate agli abbonati.

Nuova app desktop per Mac

OpenAI ha anche presentato un’app desktop per Mac che permette di utilizzare ChatGPT per varie funzioni, come chiedere cosa sia visualizzato sul display. L’app può essere richiamata con la scorciatoia Option + barra spaziatrice e riconosce elementi, scritte e immagini. Sarà disponibile gratuitamente, ma inizialmente solo per gli abbonati, che potranno utilizzarla in anteprima.

Verso un motore di ricerca AI?

Per ora, non è ancora il momento di un motore di ricerca basato su ChatGPT in grado di competere con Google. Tuttavia, sembra che uno strumento del genere sia in fase di sviluppo e potrebbe essere lanciato presto, sfruttando l’intelligenza artificiale per trovare, analizzare e visualizzare materiali di terze parti, rispondendo in modo più accurato alle richieste degli utenti.

Domani sarà il turno di Google I/O, dove il gigante delle ricerche online presenterà i suoi nuovi prodotti e soluzioni basati sull’intelligenza artificiale. Restate sintonizzati per ulteriori aggiornamenti!

AI su Safari 18

Secondo quanto riportato da Mark Gurman di Bloomberg, Apple presenterà una serie di interessanti novità riguardanti le app integrate in iOS 18 durante la WWDC 2024, che si terrà dal 10 al 14 giugno. Tra queste, particolare attenzione verrà data anche all’aggiornamento del browser di Apple, Safari 18, il quale includerà una nuova funzionalità basata sull’intelligenza artificiale generativa.

Una delle caratteristiche più significative di Safari 18 sarà la “Intelligent Search”. Questa nuova funzionalità, disponibile sia su iOS 18 che su macOS 15, si integrerà attraverso un nuovo menu nella barra degli indirizzi. Sfruttando il modello Ajax, gli utenti potranno interrogare la pagina web per ottenere informazioni specifiche e generare un riassunto del contenuto.

Un’altra funzionalità in fase di test è il “Web Eraser”. Questa opzione permetterà agli utenti di eliminare parti specifiche di una pagina web, come immagini, testo e banner pubblicitari, in modo persistente. Safari conserverà le modifiche anche dopo la chiusura della scheda o del browser, avvertendo gli utenti al ritorno sulla pagina modificata e offrendo la possibilità di ripristinare l’aspetto originale.

Inoltre, Safari 18 presenterà un’interfaccia utente aggiornata per semplificare l’accesso alle varie opzioni, con un design uniforme sia su macOS che su iPadOS. Si prevede che tutte queste novità verranno illustrate nel dettaglio durante la conferenza di giugno.

Apple ha anche avviato lo sviluppo di altre funzionalità basate sull’intelligenza artificiale che potrebbero essere rilasciate nel corso del 2025. Tra queste, una simile a “Visual Look Up” dell’app Foto, chiamata “Visual Search”, che consentirà agli utenti di ottenere informazioni sulle immagini visualizzate direttamente in Safari.

La Nuova Legge sull’Intelligenza Artificiale in Italia: Focus su Privacy e Cybersecurity

Il Consiglio dei Ministri italiano ha recentemente approvato uno schema di disegno di legge sull’intelligenza artificiale (IA), evidenziando l’importanza di bilanciare le opportunità delle nuove tecnologie con i rischi legati al loro uso improprio. Tra gli aspetti trattati nei 26 articoli del disegno di legge, vi sono le disposizioni riguardanti la privacy e la cybersecurity, in linea con il GDPR europeo e con l’obiettivo di garantire un trattamento trasparente e lecito dei dati personali.

Il disegno di legge stabilisce che l’utilizzo dei sistemi di intelligenza artificiale deve avvenire nel rispetto dei principi fondamentali della libertà di espressione, dell’obiettività dell’informazione e della protezione dei dati personali. In particolare, vengono sottolineate l’importanza della trasparenza nell’utilizzo dei dati personali e la necessità di ottenere il consenso per l’accesso ai sistemi di IA da parte dei minori.

Per quanto riguarda la cybersecurity, l’articolo 6 del disegno di legge stabilisce regole specifiche per le attività di ricerca, sviluppo e utilizzo di sistemi di IA per scopi di sicurezza nazionale e difesa nazionale. Si sottolinea l’importanza di garantire la correttezza, l’attendibilità e la sicurezza dei dati utilizzati nei sistemi di IA, oltre alla necessità di rispettare i principi generali di trasparenza e proporzionalità.

Inoltre, il disegno di legge prevede la creazione di una strategia nazionale sull’intelligenza artificiale, che sarà sviluppata e aggiornata dalla struttura competente della Presidenza del Consiglio dei Ministri, in collaborazione con le Autorità nazionali di intelligenza artificiale. Questa strategia avrà l’obiettivo di promuovere la collaborazione tra pubblico e privato, coordinando le azioni della pubblica amministrazione e incentivando lo sviluppo imprenditoriale e industriale nel settore dell’IA.

Complessivamente, il disegno di legge sull’intelligenza artificiale in Italia mira a garantire una gestione responsabile e trasparente delle nuove tecnologie, con particolare attenzione alla protezione dei dati personali e alla sicurezza nazionale.

Devin di Cognition: L’AI Rivoluzionario per lo Sviluppo Software

L’intelligenza artificiale sta compiendo progressi straordinari ogni giorno, grazie sia a realtà consolidate che a nuove startup che si impegnano quotidianamente per offrire agli utenti del web, ai professionisti di vari settori e agli appassionati di tecnologia nuovi strumenti per semplificare le loro attività e generare contenuti di valore. In questo contesto, emerge Devin, un prezioso strumento sviluppato da una piccola startup omonima.

Cos’è Devin, l’AI di Cognition?

Devin è uno strumento all’avanguardia che sfrutta le potenzialità dell’intelligenza artificiale per lo sviluppo di software, siti web e videogiochi. Grazie alle sue innovative funzionalità, potrebbe rappresentare una svolta significativa nel campo dell’IA generativa. Rivolgendosi agli ingegneri e agli sviluppatori, Devin offre un supporto concreto facilitando la scrittura del codice e consentendo un notevole risparmio di risorse, tempo ed energie.

Scott WE, CEO di Cognition, ha sottolineato che Devin può accedere a tutti gli strumenti di sviluppo comunemente utilizzati nel settore, pianificare e eseguire attività complesse e prendere decisioni importanti. In pratica, si occupa del lavoro più impegnativo, consentendo all’utente di concentrarsi sulla fornitura di prompt chiari e corretti.

Le funzionalità di Devin e il suo accesso.

Devin presenta un’interfaccia intuitiva simile a quella dei chatbot e lavora sullo sviluppo di software, siti web e videogiochi come farebbe uno sviluppatore umano. Oltre a fornire comandi testuali, gli utenti possono monitorare l’intero processo e intervenire in caso di errori o imperfezioni.

Il sistema può creare e migliorare applicazioni e siti web, individuare errori nel codice e risolvere bug senza richiedere intervento umano. A differenza di altri strumenti che offrono solo un supporto parziale, Devin gestisce l’intero progetto.

Come ci si può aspettare, l’AI di Cognition rappresenta una risorsa preziosa che consente agli ingegneri di affidare all’intelligenza artificiale le operazioni più ostiche, permettendo loro di concentrarsi su attività più creative.

Attualmente Devin è accessibile solo a clienti selezionati per essere testato e sperimentato. Le aziende interessate a integrarlo nei propri processi lavorativi possono contattare la startup tramite email. In futuro, Cognition potrebbe sviluppare strumenti simili per altre aree di lavoro.

In conclusione, Devin di Cognition si profila come uno strumento rivoluzionario nel panorama dello sviluppo software, offrendo un’alternativa innovativa e efficace per semplificare e ottimizzare i processi di programmazione.

Apple e Google collaborano per portare Gemini su iPhone con iOS 18

L’atteso aggiornamento del sistema operativo iOS 18 per iPhone potrebbe includere una novità sorprendente: l’utilizzo del modello di linguaggio Gemini di Google. Secondo le anticipazioni di Bloomberg, Apple avrebbe stretto un accordo con il colosso di Mountain View per sfruttare le capacità avanzate di intelligenza artificiale generativa offerte da Gemini.

Questa mossa rappresenta un cambiamento significativo per Apple, nota per essere piuttosto riservata nell’adozione di tecnologie sviluppate dai suoi concorrenti. Tuttavia, la crescente domanda da parte degli utenti per funzionalità AI sempre più avanzate avrebbe spinto Cupertino a cercare collaborazioni esterne per colmare questa lacuna.

Gemini è già utilizzato con successo su dispositivi di altri marchi, come il Pixel 8 Pro di Google e la linea Samsung Galaxy S24. Offre funzionalità come Magic Compose, che consente la creazione di messaggi nelle chat direttamente sul dispositivo. Tuttavia, Apple sembra interessata soprattutto all’utilizzo di Gemini per compiti più complessi basati sul cloud, come la generazione di immagini realistiche e testi articolati.

Questa collaborazione tra Apple e Google offre agli utenti iPhone l’accesso a funzionalità avanzate di intelligenza artificiale generativa, che fino ad ora erano disponibili principalmente su altri dispositivi. Mentre Apple continua a sviluppare soluzioni interne come il progetto Ferret e il chatbot Apple GPT, l’utilizzo di Gemini rappresenta una soluzione immediata per soddisfare le esigenze degli utenti in termini di AI.

Tuttavia, l’evoluzione di Gemini non è priva di controversie. Google ha recentemente annunciato una nuova versione del modello, in grado di gestire audio, video e testi di dimensioni molto più grandi rispetto a GPT-4. Tuttavia, alcuni risultati generati da Gemini sono stati oggetto di polemiche, spingendo Google a implementare limitazioni per affrontare le critiche.

In conclusione, la collaborazione tra Apple e Google per portare Gemini su iPhone rappresenta un importante passo avanti nell’integrazione di tecnologie avanzate di intelligenza artificiale nel mondo Apple. Resta da vedere come questa partnership influenzerà il futuro sviluppo e l’esperienza degli utenti su iOS.