Computer Vision: quanto questa tecnologia è accessibile alle aziende?

Lo ammetto, perfino io quando leggo l’acronimo “CV” ho ancora un attimo di smarrimento nel cercare di piazzare nel contesto di un discorso sull’innovazione… un Curriculum Vitae! Un pò come quando leggiamo “File” o “Code” in un testo in italiano e lo pronunciamo mentalmente all’inglese, e poi ridiamo di noi stessi e della nostra deformazione mentale. Noi informatici siamo così, ci divertiamo con poco.

Eppure dovremmo essere allenati: CV (che, ovviamente, sta per “Computer Vision”) è un acronimo sempre più menzionato, nella più disparata serie di campi; se pochi anni fa costituiva ancora una nicchia, appannaggio di applicazioni particolari e sistemi molto costosi, oramai si sta diffondendo sempre di più nella “vita informatica” di tutti i giorni.

Ovviamente questa diffusione della Computer Vision va di pari passo con la “commoditization” dell’intelligenza artificiale: abbiamo già parlato di cani e di moci, e di come gli strumenti tecnologici rendono ora possibile estrarre contenuto dalle immagini più disparate, ma vale la pena sottolineare come questo campo sia ora diventato accessibile a molti più utilizzatori.

In altre parole, nel passato un’azienda che usava il riconoscimento d’immagini probabilmente faceva quello “di mestiere”, e licenziava la sua soluzione – che altrettanto probabilmente copriva relativamente pochi casi d’uso – ai suoi clienti, che la inserivano nelle applicazioni. Ora invece  la CV è disponibile come tecnologia, in diverse forme e soluzioni; ci sono ovviamente ancora le soluzioni ad-hoc, ma i maggiori fornitori di Cloud forniscono dei servizi molto sofisticati con cui si possono realizzare una vasta gamma di applicazioni. All’altro lato dello spettro ci sono poi librerie disponibili in open source (e gratis), come OpenCV, che ognuno può usare. In particolare, le aziende che fanno tutt’altro possono adottare con maggiore semplicità quella che – appunto – è diventata una tecnologia accessibile, e “piegarla” ai propri scopi.

E’ un bel momento, perché le potenzialità sono immense. Penso molti abbiano visto Google Lens: incorporato in molte fotocamere dei sistemi Android, se attivato sovrappone all’immagine inquadrata una serie di “aree attive”, che il sistema “riconosce”. Se inquadro la mia sala da pranzo, riconosce il tavolino (con link al sito Ikea… ebbene sì, ho un tavolino Ikea), la bottiglia d’acqua sopra di esso (voglio comprarla online? No, grazie), il mio Macbook, e mi permette anche di trascrivere su un messaggio il testo che compare sullo schermo o il titolo di un libro lì vicino. Impressionante.

Sì, ok, ma noi? Abbiamo già cominciato con soddisfazione a realizzare dei progetti concreti: un sistema di visione realizzato con OpenCV ci ha permesso di sostituire le fotocellule che usiamo nei sistemi RFID per giudicare se un varco è impegnato in entrata o uscita; oltre alla direzione, permette anche di sapere se sta passando un uomo o un pallet, e comportarsi di conseguenza. Tutto con una webcam da poche decine di euro. L’estensione al manufacturing è piuttosto semplice, ma ciò che vorremmo come passo successivo è spingerci nel retail.

Attualmente .onRetail – la nostra soluzione per la GDO – riconosce i prodotti tramite lettura del barcode o ricerca manuale. Di certo, niente di male in questo: gli inventari di negozio sono già molto ottimizzati; ma si aprono diverse possibilità interessanti. Inquadrare il frontalino del prezzo, e tramite riconoscimento del testo riconoscere cosa si sta inventariando? Si può già fare. Inquadrare il prodotto stesso e riconoscerlo direttamente? Sarebbe un bel passo successivo. Ma anche integrare la rilevazione di flussi di clienti e magari il loro mood (sempre con un occhio alla privacy), individuare le “zone calde” di uno store, magari classificate per periodo della giornata o a fronte di promozioni su una certa categoria merceologica, per studiarne l’efficacia… sono solo alcune idee che potrebbero essere facilmente integrabili e dare valore, nel contesto sopra descritto.

Quando nel 2017 partecipammo all’NRF di New York, la più grande fiera mondiale del retail, nella sezione Innovation si vedevano molti di questi concetti – ricordo ad esempio carrelli “video” che, spinti dal cliente nelle corsie, “sorvegliavano” automaticamente gli scaffali – ma da allora, in soli 2 anni, sono stati fatti passi enormi. Alcune promesse vanno ovviamente prese ancora cum grano salis e valutate nel contesto di un processo: è difficile pensare che una semplice telecamera possa davvero censire al 100% il contenuto di un carrello, ad esempio, ma se gli errori rientrano in una certa soglia, il risparmio di tempo che ne consegue compensa il gap.

Il mestiere che vogliamo e siamo chiamati a fare del resto è questo: valutare una tecnologia, calarla nella nostra realtà, eventualmente adottarla; per rendere i nostri prodotti sempre più utili. E’ un bellissimo momento per lavorare nel nostro campo, e il futuro ci presenterà di certo interessantissime novità!