Gemini al centro della ricerca: AI Overview e Project Astra
Google ha svelato il suo piano per integrare l’intelligenza artificiale generativa nella ricerca, con l’obiettivo di fornire risposte più complete e intuitive agli utenti. La nuova funzionalità AI Overview, disponibile negli Stati Uniti e presto in altri paesi, offre riepiloghi generati dall’IA per domande complesse, posizionando le risposte in cima ai risultati della ricerca.
Il chatbot Gemini, lanciato un anno fa, è stato al centro degli annunci. Google ha presentato Project Astra, un assistente digitale multimodale in grado di elaborare testo, voce e immagini in tempo reale. Questa tecnologia, che rappresenta una risposta a GPT-4 di OpenAI, si distingue per la sua capacità di comprendere il contesto e fornire risposte pertinenti, come se fosse in una conversazione tra due persone.
AI Agents e Gem: personalizzazione e automazione
Google ha introdotto gli AI Agents, moduli di intelligenza artificiale che imparano il comportamento delle persone per anticipare le loro richieste e coordinare le attività. Questi agenti, costruiti su Gemini e altri modelli specifici, sono in grado di elaborare informazioni come foto e video, e di integrare queste informazioni con la voce.
Per un’esperienza ancora più personalizzata, gli abbonati a Gemini Advanced possono creare i Gem, versioni personalizzate di Gemini, che possono essere adattate alle esigenze specifiche dell’utente. Gli AI Agents possono eseguire operazioni automatizzate, come acquistare un paio di scarpe online, conoscendo i gusti e le preferenze della persona.
Veo: la sfida a Sora di OpenAI nel campo dei video generativi
Google ha presentato Veo, una nuova intelligenza artificiale che genera filmati di alta qualità di durata superiore al minuto, con diversi stili visivi e cinematografici. Veo comprende il linguaggio naturale e la semantica visiva, permettendo di creare video che riflettono la visione creativa dell’utente.
Veo è in grado di mantenere la coerenza nei video finali, un aspetto spesso mancante nelle soluzioni di IA, con persone, animali e oggetti che si muovono in modo realistico. L’accesso a Veo è attualmente riservato, ma Google ha collaborato con alcuni creativi per dimostrare le potenzialità di questa tecnologia.
Imagen 3: miglioramenti nella generazione di immagini da testo
Google ha annunciato Imagen 3, un’intelligenza artificiale che genera immagini da testo. Questo nuovo modello comprende meglio il linguaggio naturale e le intenzioni dell’utente, sia che si tratti di brevi descrizioni che di testi più lunghi.
Imagen 3 è stata ottimizzata per la realizzazione di testi nelle grafiche, un aspetto che rappresentava una sfida per le soluzioni di intelligenza artificiale generativa.
Gemini 1.5 Pro: prestazioni avanzate e finestra contestuale ampliata
Le nuove funzionalità di Gemini dipendono dal modello Gemini 1.5 Pro, che dispone di una finestra contestuale di 1 milione di token, la più grande per qualsiasi chatbot consumer a livello mondiale. Questo modello consente a Gemini Advanced di comprendere il significato di documenti di dimensioni considerevoli, come PDF di 1500 pagine, e di riassumere 100 email in pochi secondi.
Gemini Advanced sarà presto in grado di gestire contenuti video della durata di 1 ora. Google ha anche aggiornato l’hardware che potenzia il calcolo dei modelli di intelligenza artificiale, con Trillium, la sesta generazione di processore per Google Cloud, progettato per la gestione delle reti neurali.
Cerchia e cerca: nuove funzionalità per la risoluzione di problemi matematici
Google ha presentato Cerchia e cerca, una funzione che permette di cerchiare qualsiasi elemento sullo schermo del telefono e ottenere risposte contestuali grazie all’IA generativa di Gemini. Questa funzione è stata ampliata per rispondere a diverse istruzioni, tra cui la risoluzione di compiti matematici, con la spiegazione passo passo del procedimento.
Nella seconda metà dell’anno, sui dispositivi Pixel, Google introdurrà Gemini Nano, un modello di intelligenza artificiale più piccolo, pensato per i dispositivi mobili. Gemini Nano avrà funzionalità multimodali complete, permettendo allo smartphone di comprendere più informazioni di contesto, come luoghi, suoni e linguaggio parlato.
Gemini Nano: sicurezza digitale e protezione da frodi telefoniche
Google sta testando una nuova funzionalità che utilizza Gemini Nano per fornire avvisi in tempo reale durante una telefonata, se rileva schemi di conversazione comunemente associati a frodi. Questa protezione avviene interamente sul dispositivo, senza la diffusione di informazioni online e mantenendo tutto in privato.
Questa funzionalità rappresenta un passo avanti nella sicurezza digitale, proteggendo gli utenti da frodi telefoniche e garantendo la privacy delle informazioni personali.