Google VideoBERT kan voorspel wat volgende in die films gaan gebeur

Google VideoBERT kan voorspel wat volgende in die films gaan gebeur

Mense kan gebeure maklik waarneem en gebeure voorspel of voorspel wat waarskynlik in die nabye toekoms sal plaasvind, maar sulke voorspelling was nog altyd moeilik vir AI. Nou nie meer nie. Navorsers van Google het voorgestel VideoBERT, ‘n stelsel wat self toesig hou, wat voorspellings kan maak gebaseer op films wat ongemerk is.

“Spraak is geneig om tydelik aan te pas by visuele seine en kan met behulp van klaargemaakte outomatiese spraakherkenningstelsels (ASR) onttrek word, en is daarom ‘n natuurlike bron van selfbeheersing.”, het Google-navorsers in ‘n blogpos geskryf.

VideoBERT gebruik Google BERT om die besonderhede van die film te leer. In die besonder is BERT (tweerigtingvoorstellings van koders van transformators) die modernste model wat Google gebruik vir toepassings wat op natuurlike taal gebaseer is.

Google het prentraamwerke gebruik in kombinasie met outomatiese uitsetsinne vir spraakherkenning om dit te omskep in visuele tekens wat 1,5 sekondes duur. Hierdie visuele tokens word dan gekombineer met woordtoken. Ontbrekende tekens is aangevul met behulp van die VideoBERT-model.

Die blog verduidelik hoe wetenskaplikes VideoBERT opgelei het in meer as ‘n miljoen video’s oor kook, tuinmaak en herstel van voertuie. Navorsers is ook besig om VideoBERT-resultate te verifieer om die akkuraatheid van die model te beoordeel.

google videobert

Volgens wetenskaplikes kon VideoBERT voorspel dat ‘n bak meel en kakaopoeier in die oond gebak kan word en in ‘n koek of koekie omskep kan word. Die blog het ook opgemerk dat VideoBERT dikwels nie akkurate visuele inligting het nie, soos kleiner voorwerpe en subtiele bewegings.

“Ons resultate toon die krag van die BERT-model in die aanleer van visueel-linguistiese en visuele voorstellings uit onbekende films. Ons vind dat ons modelle nie net bruikbaar is vir die klassifikasie van nulopnames en resepte genereer nie, maar dat die geleerde tydvoorstellings ook goed beweeg na verskillende take, soos voorspelling van aksies. “ het die navorsers opgesom.

Wat dink u van VideoBERT? Laat weet ons in die kommentaar.