Ti è mai capitato di ascoltare la voce di una persona e immaginarne il volto? Quando hai visto questa persona per la prima volta era come te la saresti aspettata? Il cervello umano può arrivare a dei livelli davvero sbalorditivi, solo che va usato nella sua completezza senza mai lasciare spazio alla superficialità. Con le migliaia di persone che vediamo e ascoltiamo in tutta la vita, ad un’età matura si può pensare che il cervello riesca a ricostruire il volto di una persona basandosi sull’esperienza pregressa?
Alcune regole base, con la quale ricostruire il volto attraverso la voce, potrebbero essere il far caso alla profondità della voce, immaginando di conseguenza la dimensione della cassa toracica della persona. Un’altra regola potrebbe essere quella di immaginare l’espressione del volto a seconda della voce. Se ascolti una voce calma probabilmente la persona che la possiede avrà un’espressione di un certo tepore, accomodante.
Ma si può ottenere il volto di una persona avendo come riferimento solo la sua voce? Si, grazie all’intelligenza artificiale.

Un gruppo di ricercatori si è posto questa domanda e ha iniziato a dare una risposta con la partenza del progetto Speech2Face, ovvero dalle parole alla faccia. Il progetto consiste proprio in questo, ottenere un volto usando solo la voce di una persona. La scommessa che i ricercatori hanno fatto è quella di riuscire a ottenere dei volti simili a quelli reali.

Più persone ricevono le curiosità più è alta la possibilità che le condividano.
Scegli come seguire Novabbe.com e diventare parte di tutto questo.
Grazie per il tuo sostegno

Per quanto possa sembrare sinistro come esperimento, i risultati lo sono ancora di più guardando le somiglianze ottenute.
Ovviamente essendo Speech2Face un progetto giovane, i primi risultati hanno si dimostrato di riuscire a ottenere un viso, il problema è che è ancora somigliante e non proprio uguale. Sarà solo questione di tempo affinché i risultati riescano a sbalordire ben oltre le aspettative.
Quel che si è capito fino adesso è che il sistema di ricostruzione del viso, partendo dalla voce, ha bisogno di un audio di almeno 3 secondi per cominciare a ricostruire il volto. Il bello è che più secondi ha a disposizione il sistema di ricostruzione, più quest’ultima sembra essere fedele all’originale. Negli esempi che seguono si vedono le sostanziali differenze tra le ricostruzioni ottenute con audio da 3 secondi e quelle ottenute con audio da 6 secondi:

Il bello di questa tecnologia saranno i possibili usi. Immaginate ad esempio un uso a favore delle forze dell’ordine: solo intercettando un audio whatsapp si potrà pensare di ricostruire il volto della persona che parla, immagino. Gli esempi per applicare questa tecnologia sono praticamente infiniti.
I ricercatori hanno provato a unire la ricostruzione del viso attraverso la voce con la generazione di un cartone animato. In questo modo è molto più semplice ricostruire il volto dato il vertiginoso calo dei parametri di ricostruzione. Ecco degli esempi di volto in versione cartone animato ottenuto attraverso Speech2Face.

Una questione etica e spinosa allo stesso tempo è quella della Privacy. Come ci si comporterà quando basteranno tre secondi della propria voce per ricostruire il volto? Semplice, per non essere riconosciuti parleremo con le mollette sul naso, così da cambiare la voce nel modo più elementare e ridicolo possibile. Forse.
Fonte: Speech2Face