Sembra un trucco ingegnoso, qualcuno ha perfino messo in dubbio le sue reali performance, invece possiede implicazioni molto più grandi di un file. In realtà Google, e più precisamente Deepmind, la sua divisione neurale, potrebbe aver trovato un’Intelligenza Artificiale che da una sola immagine è capace di realizzare un video intero.
Il team dietro la rete neurale avanzata DeepMind di Google ha svelato una nuova capacità denominata Transframer, che consente all’Intelligenza Artificiale di generare video di 30 secondi da un singolo input di immagine.
“Transframer è all’avanguardia su una varietà di benchmark di generazione video, può generare video coerenti di 30 secondi da una singola immagine senza alcuna informazione geometrica esplicita”. DeepMind esce così allo scoperto.
Transframer, un punto di partenza per nuove strade
Fondamentalmente, tutto ciò di cui Transframer ha bisogno è una foto, che poi analizza e identifica l’inquadratura dell’immagine, ad esempio indizi come un tavolo, un corridoio o una strada. Dopo aver previsto l’ambiente circostante di un soggetto utilizzando queste “immagini di contesto”, quindi ipotizza (e successivamente mostra) come sarebbe quella immagine da varie angolazioni. Il team di DeepMind illustra la procedura con obiettivi come una sedia, un laptop, un bicchiere d’acqua e persino un libro di testo.
“Data una raccolta di immagini di contesto con annotazioni associate, time-stamp, punti di vista della fotocamera, ecc.) e un’annotazione di query, il compito è prevedere una distribuzione di probabilità sull’immagine target”. Deepmind apre le porte alla innovazione.
“Questo framework – continua il team della divisione neurale di Google – supporta una gamma di attività di previsione visiva, tra cui la modellazione video, la sintesi di nuove viste e la visione multi-task”.
Come notato da Futurism, Transframer potrebbe un giorno offrire una strada completamente nuova all’interno dell’industria dei videogiochi, utilizzando l’apprendimento automatico per creare ambienti digitali piuttosto che fare affidamento su metodi di rendering più dispendiosi in termini di tempo.
Con il progredire della tecnologia, la formazione Transframer di DeepMind potrebbe aprire strade completamente nuove per l’arte, l’analisi scientifica e l’ulteriore sviluppo dell’IA. Inoltre, un utente di Twitter ha immaginato di trasportare le immagini DALL-E di OpenAI sopra il programma Transframer per creare creazioni AI impilate, come se quelle immagini non potessero diventare più surreali.
Certo, finora i video mostrati effettivamente sono bassissima risoluzione, ma la forte sensazione è che Deepmind sia solo all’inizio di un nuovo percorso: Transframer, un gioco di due parole ossia Transformer (sì, proprio i mitici personaggi della Hasbro) e frame, è soltanto un punto di partenza.
🛑 FONTE