L’appuntamento con Dave Limp è alle 9 del mattino, c’è tempo per un veloce caffè. Siamo a Seattle, downtown, e la cameriera di Starbucks che ci prepara l’americano sorride. Finalmente la città è tornata a vivere. Fatta eccezione per lo Space Needle, la torre simbolo della città, quasi tutti i grattacieli in questa zona sono parte di quella che potremmo definire “Amazon Town”, una città dentro la città. I dipendenti di Amazon sono tornati al lavoro proprio questa settimana, e prima di loro le strade erano vuote: per quasi due anni hanno lavorato da casa.

Attorno alla 7th Avenue Jeff Bezos ha costruito il suo impero, e proprio di fronte all’ingresso di “Day 1”, il building principale, ci imbattiamo nella roulotte che distribuisce gratis banane a tutte le persone che passano davanti, dipendenti e non. L’ha voluta Bezos, una sorta di riconoscenza verso la città che lo ha accolto ma anche la dimostrazione che ogni cosa in Amazon è stata studiata e pensata in chiave efficienza. La banana è l’unico frutto che costa poco, ha un contenitore naturale compostabile (la buccia), non deve essere lavato e può essere mangiato a mani nude.

Dave Limp ci aspetta al quinto piano: è il Senior Vice President di Amazon Devices & Services, ed è i vertice di una piramide composta da decine di migliaia di persone che hanno dato vita ai prodotti più noti di Amazon come Alexa, Echo, Kindle, FireTV, Ring, Link ed Echo. Limp sta lavorando anche ai due progetti più ambiziosi di Amazon, Project Kuiper, il competitor di Starlink nato per portare la connettività nei posti dove ancora oggi arriva il rame (e la fibra difficilmente arriverà) e Zoox, l’azienda che sta sviluppando i veicoli a guida autonoma per la mobilità sostenibile cittadina.

Dave Limp, Senior Vice President di Amazon Devices & Services

Con una carriera iniziata in Apple, dove ha lavorato fino al 1996, e una laurea in matematica e computer science, Limp è l’uomo giusto nel momento giusto, quello dove l’intelligenza artificiale è diventata oggetto di dibattito in tutto il mondo per le sue potenzialità ma anche per le eventuali problematiche a lei connesse.

È anche l’uomo che può rispondere alla domanda che si stanno facendo un po’ tutti negli ultimi mesi: perché Alexa non riesce ad essere come ChatGPT? Possibile che Amazon, con le competenze che ha e gli ingegneri che ha, non riesce a dare ad Alexa una intelligenza simile a quella del motore che ha avuto negli ultimi mesi una diffusione impressionante?

Limp non è un uomo di marketing, è un informatico, e il suo approccio è diretto. “Oggi tutti sono sorpresi dell’intelligenza artificiale. Chi ha provato ChatGPT ha avuto una epifania, è rimasto sbalordito e sorpreso da quello che si poteva fare. Io no, o meglio, ho vissuto questa crescita in modo graduale anche perché già 14 anni fa utilizzavamo l’intelligenza artificiale per il controllo delle frodi in Amazon. La mia epifania l’ho avuta 18 mesi fa, molto prima della diffusione di ChatGPT, quando il team di Alexa ha sviluppato un Large Language Model di 20 miliardi di parametri e ho visto con i miei occhi cosa era in grado di fare questo modello. Ero sbalordito.” ci spiega Limp.

Il riferimento è a Alexa TM 20B, dove TM sta per Teacher Model e 20B sta per 20 billion, i miliardi di parametri utilizzati dal modello. Amazon si è ispirata come base a GPT-3, ma l’ha esteso e lo ha trasformato da architettura decoder-only ad architettura decoder - encoder.

Cosa vuol dire questo? Alexa funziona analizzando una richiesta vocale e dopo averla capita attiva un intento: “Utilizza Apple Music per riprodurre una canzone di Mengoni” richiama l’intento “play-music” al quale vengono passati parametri come Apple Music e Mengoni.

Il nuovo modello Alexa Teacher Model, una volta allenato con una combinazione di intenti e richieste, non solo è in grado di generare automaticamente le possibili richieste per ogni intento, ad esempio per “get-news-update” genererà “Mi puoi leggere le ultime notizie dall’Italia”, ma sarà in grado automaticamente di generare anche tutte le eventuali richieste per quell’intento nelle lingue parlate da Alexa, senza bisogno di farlo a mano. Un modello che scrive le istruzioni per migliorare se stesso e per rendere Alexa più intelligente.

Il modello AI di Alexa stile ChatGPT non solo può rispondere, ma può anche creare istruzioni per migliorarsi

Già da 18 mesi Amazon ha quindi in casa un modello LLM che non solo ragiona allo stesso modo di ChatGPT, ma è in grado a sua volta di migliorarsi andando a coprire anche tutte le esigenze multi-linguistiche di Alexa.

Un modello particolarmente efficiente, che oltre ad essere unico nelle sue funzionalità ha anche un impatto ambientale durante la fase di addestramento cinque volte inferiore rispetto a quello di GPT-3.

Questo modello rappresenta un passo in avanti enorme per Alexa e per lo sviluppo di Alexa in tutti i linguaggi. “Pensate ad una nuova funzionalità legata alla sveglia del vostro Echo Dot - spiega Limp - grazie al nuovo modello possiamo sviluppare quella funzionalità in inglese e dopo averla data in pasto ad AlexaTM 20B, dall’altra parte, senza far nulla, esce la versione giapponese perfettamente funzionante. Un po’ come un manuale di istruzioni: il manuale lo scriviamo in inglese, e tutti coloro che conoscono l’inglese sanno esattamente cosa devono fare e come. Il lato più affascinante di questo teacher model è che lavora come una sorta di pietra di Rosetta ma non sappiamo esattamente come funziona, sappiamo solo che funziona.

Limp ci mette davvero poco a farci capire che Amazon non è affatto indietro rispetto a GPT di OpenAI o a PaLM di Google, ma semplicemente che per il modo in cui lavora Alexa non è pensabile oggi prendere una intelligenza artificiale generativa, metterla dentro uno smart speaker e pensare che vada tutto bene.

Ci fa l’esempio di una persona che chiede ad Alexa di accendere le luci della sala da pranzo. Una IA generativa potrebbe pensare che si tratti della sala dove si pranza di solito, e quindi accende le luci della cucina. Lo fa una volta, lo fa due volte e alla terza volta l’utente smette di usare quella funzionalità. Esistono situazioni dove ci si può aspettare una minore precisione, ma per alcuni aspetti Alexa ha bisogno di essere precisa al 100% e di eseguire alcune operazioni alla lettera, senza metterci troppa astrazione. Si pensi ad esempio ai prezzi degli oggetti da acquistare a voce, Alexa deve essere precisa nell’indicare un prezzo non può dare un prezzo di stima in base alle informazioni che aveva quando è stata allenata.

Limp ci spiega che molti modelli generativi vengono già usati per e risposte di Alexa e che nei prossimi mesi vedremo Alexa diventare sempre più intelligente, anche se bisogna capire che il tipo di funzionamento che si chiede ad un assistente vocale è differente da quello che si chiede ad un chatbot su computer, come ad esempio ChatGPT.

"Non si può prendere il modello di ChatGPT e metterlo dentro uno smart speaker"

Riflettendo sulle parole di Limp pensiamo subito alle differenze che ci sono oggi quando viene fatta una richiesta ad Alexa e quando viene fatta una richiesta a ChatGPT. La prima sta proprio nella richiesta, che nel caso di Alexa viene fatta a voce: il dispositivo non manda l’intera richiesta ai server, per questioni di privacy, ma si limita a capire l’intento e ad estrarre alcuna parole chiave che servono per fornire la risposta. ChatGPT, quando facciamo una richiesta, non parte da una serie di parole e neppure da un comando vocale ma da una richiesta ben precisa, richiesta che viene inviata per intero al server e motivo anche di problematiche legate alla tutela dei dati e alla privacy.

Il secondo aspetto è proprio la risposta: ChatGPT può permettersi di restituire una risposta esaustiva sottoforma di testo, ma se la stessa risposta venisse ripetuta da Alexa a voce risulterebbe lunga e noiosa, probabilmente le persone non l’ascolterebbero per intero. Ecco perché il nuovo modello AlexaTM è ad oggi, secondo Amazon, il miglior modello capace di sintetizzare informazioni e fare riassunti di informazioni più lunghe: chi cerca una informazione vuole una risposta breve e coincisa.

Il modello LLM di Alexa è tra i migliori modelli esistenti in grado di riassumere testi 

Infine c’è l’output, che nel caso di Alexa è vocale e nel caso dei chatbot è testuale: un utente oggi legge il testo generato da ChatGPT a mente utilizzando la sua voce, mentre nel caso di Alexa ascolta informazioni con la voce di un altro, una voce sintetizzata simile ad una voce naturale ma non perfetta.

Il manager di Amazon spiega che nel confronto con ChatGPT ci sono aspetti dove Alexa use già vincente, anche perché oggi l’assistenza di Amazon è in grado di fare cose che ChatGPT non può fare considerando che il suo addestramento è basato su dati risalenti al 2021: “Se chiedo ad Alexa quanto hanno fatto i Lakers ieri contro Golden State, chi ha segnato più punti e quanti punti ha fatto Steph Curry Alexa è in grado di rispondermi, ChatGPT fa scena muta”.

Limp ha capito che la nostra richiesta era leggermente differente, ci interessa sapere quando Alexa, oltre a fare cose che ChatGPT non può fare, sarebbe stata in grado di fare quello che oggi i chatbog generativi sanno benissimo fare.

Se volete che vi dica quando Alexa sarà in grado di raccontarvi la storia di quella volta che il capitano Kirk ha incontrato i triboli sulla stazione spaziale K-7 beh, prevedo un orizzonte temporale di 12 - 18 mesi” conclude Limp.

Un robot in ogni casa entro 5/10 anni

Per la terza volta, durante la nostra conversazione, viene citato Star Trek. Ci prendiamo un momento di tempo per fare una ricerca su Google, e scopriamo che nel 2017 Limp stesso, già a capo del team di Amazon device, ipotizzava un futuro dove Alexa fosse in grado di fare esattamente quello che può fare il computer di bordo in una serie di fantascienza come Star Trek. Ripercorriamo a mente i passi fatti da Amazon in questi anni per inseguire quella visione e riusciamo ad annodare tutti i fili: Amazon sapeva, fin dal principio, che sarebbe stato molto più difficile fare un computer che fosse in grado di reggere una conversazione a voce rispetto ad un computer onnisciente. Ha prima creato il miglior sistema per la comprensione vocale on-device, e successivamente ha lavorato per entrare nelle case di tutti portando prima i dispositivi Echo e poi la domotica.

La casa è per Limp quello che l’Enterprise rappresenta per il capitano Kirk. Il bello inizia adesso, perché Amazon ha già lavorato al modello generativo che è in grado di sapere tutto e di rispondere su tutto, l’unica cosa che gli manca è evitare di renderlo noioso con risposte lunghe, deve essere discorsivo. Ci stanno arrivando.

Anzi, se pensiamo alla fantascienza la prima cosa che ci viene in mente non è tanto un computer immobile, quanto un robot che risponde, aiuta, sorveglia. Il primo si chiama Astro, e il nome non è casuale, ma è solo un primo passo verso quelli che saranno i prodotti di Amazon per i prossimi anni. “Abbiamo una teoria - ci dice Limp - potete essere d’accordo oppure no, ma crediamo che da qui a cinque / dieci anni ogni casa avrà un robot. Un robot che si muove, perché una lavastoviglie oggi non è altro che un robot, capace di fare qualcosa al posto dell’uomo".

"Astro è un robot ricreativo - prosegue Limp - chi lo ha ordinato lo ama, ma stiamo già guardando avanti e l’acquisizione di iRobot guarda in quella direzione. iRobot è leader nel settore della pulizia domestica e ha un reparto ricerca e sviluppo avanzatissimo sugli algoritmi che servono per muoversi correttamente all’interno di un ambiente domestico. Oggi ci sono Echo e Astro, domani ci saranno robot ancora più utili capaci di reggere una conversazione e di mostrarsi proattivi”.

Alexa è stata spesso criticata in questi ultimi anni, non ha portato i guadagni previsti per Amazon e la divisione è stata colpita di recente anche da alcuni tagli di personale, ma parlando con Limp abbiamo avuto l’impressione che loro lo avessero sempre saputo che i primi anni sarebbe stato così, che Alexa sarebbe stato questo che abbiamo oggi. Un assistente che può far tanto, ma per certi aspetti ancora troppo giovane.

Il sole è ormai alto su Seattle, e si riflette sulle biosfere volute da Bezos di fronte al quartier generale di Amazon. Ci aspettano per vedere le 40.000 specie di piante presenti, ma prima un ultimo saluto a Limp e ad Alexa: “Lunga vita e prosperità”.

L'interno delle "bio-sfere" di Amazon: 40.000 specie di piante, posti per lavorare e un bar
 
Fonte qui