Interfacce vocali: pro e contro

E così Duplex, il sistema di Google che chiama la pizzeria per prenotare un tavolo al posto tuo in modo automatico e decisamente futuristico, è ancora non del tutto automatico e non molto futuristico. In fondo non sorprende, ma non è certo un male, anzi!

Facciamo un passo indietro: al Google I/O 2018, la conferenza dedicata agli sviluppatori, Google aveva fatto parecchio scalpore con la demo di questo servizio che “pareva” essere in grado di chiamare una pizzeria, chiedere informazioni e riservare un tavolo. Questo per poter connettere gli utenti digitali a quei servizi che ancora non accettano prenotazioni online.

Intento lodevole e realizzazione ancor di più: l’intelligenza artificiale capiva la conversazione, rispondeva a tono, e pareva insomma fare il suo dovere. Al tempo vennero sollevati molti dubbi sulla reale veridicità della demo; ma di sicuro la tecnologia c’era, ed era incredibile.

In questo anno o poco più, Duplex è diventato disponibile in 43 stati negli USA, dimostrando una “concretezza” che pochi – io compreso – avrebbero pronosticato.

È della settimana scorsa però un report che rivela che il 25% delle chiamate sono ancora fatte da operatori umani, ed il 15% delle altre viene passato a un operatore in carne ed ossa dopo le prime battute. Questo ha creato un po’ di agitazione: accuse di barare, e molti commenti negativi sul reale valore del sistema.

Sinceramente, sono anche un po’ sollevato: un sistema che non sbaglia mai nell’interazione con le persone evoca scenari da fantascienza che mettono i brividi (ed il concetto di Uncanny Valley, d’altronde, è lì vicino), e non giudico male un sistema che interagisce con gli umani se ha bisogno di intervento umano. Ci sono semplicemente troppi fattori variabili perché si possa pensare di gestire “qualunque telefonata”.

Semmai, 25%+15% mi paiono anche pochi: la maggior parte delle chiamate paiono essere ancora completamente automatiche, e questo è sinceramente impressionante. Complimenti a Google.

Al di là di sistemi creati da multimiliardarie multinazionali, comunque, qui c’è qualche spunto di riflessione anche per tutti noi. Vediamo:

  1. Le interfacce conversazionali vocali vanno forte  
    Non so se le persone rifuggano il contatto umano, e il punto non è questo; ma la voce è uno strumento ideale per interagire col “mondo digitale” quando si sta facendo altro, si hanno le mani occupate o si sta guidando. E visto che con le nostre soluzioni di raccolta ordini, tentata vendita, CRM mobile ci rivolgiamo ad agenti di vendita e tentatisti che passano gran parte della loro giornata al volante… questo trend non è ignorabile! (leggi anche questo post che può darti degli spunti a riguardo: uno strumento di vendita che funziona dove serve: davanti al cliente)
  1. Non esiste ancora l’interfaccia vocale perfetta 
    L’IA – anche quando distingue cani da moci – non può ancora gestire una conversazione “qualunque”, perfettamente. Con Duplex, parliamo di un campo ben definito, la prenotazione, che ha i suoi “rituali” e le sue frasi codificate; di un 40% di intervento umano; e con tutto questo è comunque un risultato incredibile.

Non si può purtroppo ancora pensare di strutturare un sistema “a cui parlare” liberamente; è ancora necessario progettare bene l’interazione, per dare all’utente l’impressione di parlare con un linguaggio quanto più possibile naturale ma anche inducendolo a fornire all’”interlocutore automatico” un contenuto da lui intelleggibile, ad esempio per mezzo di keyword. Pensate a Siri/Cortana/Alexa/Google Assistant: possono rispondere in modo più o meno buffo a domande generali, ma danno il loro meglio quando possono focalizzarsi su parole come “meteo”, “sveglia”, “promemoria”, eccetera.

C’è da dire che le cose stanno migliorando molto: ormai il riconoscimento vocale, che è la prima ed imprescindibile tessera del puzzle, ha raggiunto ottimi livelli anche in italiano, e “perdona” molto più di un tempo le inflessioni strane, parole dialettali eccetera. Ne è un esempio: il sistema di voice picking adottato dal principale produttore e distributore di Coca Cola nella penisola dello Yucan (Messico). Punto di forza: il riconoscitore di tipo speaker independent, basato sull’Intelligenza Artificiale, della suite vocale Lydia Voice che abbiamo scelto di adottare nei nostri progetti.

Il futuro poi sarà un gioco di bilanciamento. Non crediamo che questi sistemi potranno mai sostituire l’interazione umana, ad esempio in campi “aperti” come l’assistenza tecnica. Il fattore umano, come abbiamo già avuto modo di rilevare, è imprescindibile, sia per una comprensione completa del problema, sia per l’empatia che si crea con l’interlocutore. Ciononostante, sistemi simili a questi possono senz’altro assistere il lavoro dell’operatore: aprire la chiamata, in qualche caso fare una scrematura, oppure fornire un livello minimo di servizio fuori orario o fuori copertura telefonica. Bisogna pensarci, progettare, probabilmente sbagliare e tornare al banco di progettazione. Il mestiere dell’informatico è anche questo.