“Gli esseri umani guidano con gli occhi e le reti neurali biologiche, quindi le telecamere e le reti neurali in silicio sono l’unico modo per ottenere una soluzione universale per la guida autonoma”, ha twittato Elon Musk nell’ottobre 2021. Il problema con il suo ragionamento era che gli occhi umani sono molto più bravi delle fotocamere RGB nel rilevare oggetti in rapido movimento e nella stima delle distanze. Il nostro cervello ha inoltre superato di gran lunga tutte le reti neurali artificiali nell’elaborazione generale degli input visivi.
Per colmare questa lacuna, un team di scienziati dell’Università di Zurigo ha sviluppato un nuovo sistema per il rilevamento di oggetti nelle automobili, avvicinando molto di più le prestazioni delle fotocamere digitali a quelle degli occhi umani. “Fonti non ufficiali affermano che Tesla utilizza più fotocamere Sony IMX490 da 5,4 megapixel [capture] Fino a 45 fps, che si traduce in una latenza percettiva di 22 ms. confronto [these] “Grazie solo alle telecamere della nostra soluzione, abbiamo già osservato una riduzione di 100 volte della latenza cognitiva”, afferma Daniel Gehrig, ricercatore dell’Università di Zurigo e autore principale dello studio.
Imitazione della visione umana
Quando un pedone salta improvvisamente davanti alla tua auto, devono accadere diverse cose prima che il sistema di assistenza alla guida possa applicare una frenata di emergenza. Innanzitutto, i pedoni devono essere catturati nelle immagini delle telecamere. Il tempo necessario è chiamato latenza percettiva, che è un ritardo tra la presenza di stimoli visivi e la loro comparsa nella lettura del sensore. Successivamente, la lettura deve raggiungere l’unità di elaborazione, che aggiunge una latenza di rete di circa 4 millisecondi.
L’elaborazione della classificazione dell’immagine di un pedone richiede millisecondi preziosi. Una volta fatto ciò, il rilevamento passa all’algoritmo decisionale, che impiega un po’ di tempo per decidere di premere il freno: tutta questa elaborazione è nota come latenza computazionale. In generale, il tempo di reazione varia da 0,1 a mezzo secondo. Se un pedone corre a una velocità di 12 km/h, in questo tempo percorrerà una distanza compresa tra 0,3 e 1,7 metri. La tua auto, se guidi a 50 km/h, percorrerà da 1,4 a 6,9 metri. In un incontro ravvicinato, ciò significa che è più probabile che tu li colpisca.
Gehrig e David Scaramuzza, professore all’Università di Zurigo e coautore dello studio, mirano ad abbreviare i tempi di reazione riducendo i tempi di risposta cognitivi e computazionali.
Il modo più diretto per ridurre il primo era utilizzare fotocamere standard ad alta velocità che registrano semplicemente più fotogrammi al secondo. Ma anche con una fotocamera da 30-45 fps, un’auto a guida autonoma genererebbe circa 40 terabyte di dati all’ora. L’installazione di qualcosa che ridurrebbe drasticamente la latenza cognitiva, come una fotocamera da 5.000 fotogrammi al secondo, travolgerebbe il computer di bordo dell’auto in un istante, poiché la latenza computazionale raggiungerebbe le stelle.
Per questo motivo il team svizzero ha utilizzato una cosiddetta “event camera”, che imita il funzionamento degli occhi biologici. “Rispetto a una videocamera basata su fotogrammi, che registra immagini dense a una frequenza fissa – fotogrammi al secondo – le telecamere per eventi hanno pixel intelligenti indipendenti che misurano solo i cambiamenti di luminosità”, spiega Gehrig. Ciascuno di questi pixel inizia con un livello di luminosità specifico. Quando la variazione di luminosità supera una certa soglia, il pixel registra un evento e imposta un nuovo livello di luminosità di base. Tutti i pixel nella telecamera degli eventi lo fanno continuamente, con ogni evento registrato che appare come Punto nella foto.
Ciò rende le telecamere per eventi particolarmente adatte a rilevare movimenti ad alta velocità e consente loro di farlo utilizzando molti meno dati. Il problema nel metterli nelle auto era che avevano difficoltà a rilevare oggetti che si muovevano lentamente o non si muovevano affatto rispetto alla telecamera. Per risolvere questo problema, Gehrig e Scaramuzza hanno scelto un sistema ibrido, dove una telecamera per eventi è stata combinata con una telecamera tradizionale.