L’assistente digitale Google Assistant tra non molto potrebbe vedere l’integrazione di un’IA in grado di aumentare le sue capacità
Google Assistant potrebbe presto ottenere funzionalità avanzate basate sull’intelligenza artificiale simili a quelle di chatbot come Bard e ChatGPT. In un’e-mail vista da Axios, un dirigente senior di Google ha detto ai dipendenti che l’azienda vede “un’enorme opportunità per esplorare come sarebbe un assistente sovraccaricato, alimentato dalla più recente tecnologia LLM”.
Ora, l’azienda non è entrata nei dettagli su come potrebbero essere quelle capacità “sovraccaricate”, ma una rapida occhiata al set di funzionalità di Bard offre una buona idea di ciò che possiamo ragionevolmente aspettarci.
Bard è costruito in cima al modello linguistico Pathways Language Model 2 (PaLM 2) ed è alimentato dalla tecnologia Language Model for Dialogue Applications (LaMDA) di Google. Oltre ad essere in grado di rispondere alle domande basate su informazioni raschiate dal web, Bard ha recentemente acquisito la capacità di analizzare le immagini utilizzando la stessa tecnologia che alimenta Google Lens. Può anche tirare citazioni e presto si farà strada su Adobe Express grazie all’integrazione con l’IA generazionale Firefly.
Ma queste funzionalità hanno poco a che fare con Google Assistant, che attualmente può estrarre i risultati della ricerca web al meglio, o eseguire attività connesse all’app su un dispositivo come l’impostazione di allarmi o la riproduzione di musica. Bard, d’altra parte, potrebbe essere il chatbot AI più intelligente là fuori, ma non può davvero eseguire alcun compito significativo sul tuo telefono, come riprodurre musica o impostare un allarme, ma in un assistente integrato, può migliorare notevolmente le capacità di Google Assistant. È interessante notare che Google ha già dato un teaser di ciò che verrà.
Un grande balzi in avanti per gli assistenti digitali
Nel maggio 2023, il team di intelligenza artificiale di Google ha pubblicato un report intitolato “Abilitare l’interazione conversazionale sul cellulare con LLM“, che prevedeva il test di grandi richieste di modelli linguistici contro l’interfaccia utente di un telefono. Si parla dell’integrazione di modelli linguistici di grandi dimensioni con interfacce utente grafiche (GUI), ovvero le app e il software in esecuzione sullo schermo del telefono.
Discute ampiamente quattro aree applicative che includono il riepilogo del contenuto sullo schermo, la risposta alle domande in base al contenuto visualizzato sul display e, soprattutto, l’assegnazione di funzioni dell’interfaccia utente ai prompt linguistici.
Ad esempio, il modello di linguaggio può sfogliare l’interfaccia utente per generare automaticamente domande contestuali e le informazioni che trasmettono. Una volta che ha raccolto i dettagli, può convertirli in domande, in modo che quando un utente chiede, il modello linguistico risponde prontamente.
Un’altra capacità notevole è la “rispondere alle domande sullo schermo“. Ad esempio, quando un post di blog è aperto in un browser web, l’IA può fornire dettagli come titolo, nome dell’autore, data di pubblicazione e altro ancora.
Ma l’area di applicazione più promettente è “l‘istruzione di mappatura all’azione dell’interfaccia utente“. Essenzialmente, si traduce nel controllo del telefono utilizzando i prompt (sia voce che testo). All’assistente virtuale può essere chiesto di aprire un’app, modificare le impostazioni del telefono come la modalità di rete cellulare e altro ancora, con capacità di conversazione migliorate al seguito.
Non è chiaro quando arriverà esattamente su Google Assistant “sovraccaricato”, ma sarebbe un bel salto nelle sue capacità. È interessante notare che si dice anche che Apple stia giocando con strumenti di intelligenza artificiale generazionale – secondo quanto riferito internamente soprannominati AppleGPT – per migliorare Siri.