Google's Automated Image Captioning & the Key to Artificial "Vision"

Het is geen geheim dat Google de afgelopen jaren actiever is geworden in onderzoek, vooral omdat het zichzelf aanzienlijk opnieuw heeft georganiseerd in 2015. Op 22 september 2016 heeft het de open-source release aangekondigd van een stuk software dat de objecten kan detecteren en instellen van een afbeelding om automatisch een bijschrift te genereren dat deze beschrijft. Het heeft natuurlijk niet hetzelfde niveau van creativiteit als menselijke wezens bij het maken van het proza binnen de bijschriften, maar de beeldcodeerder die ook wel bekend staat als Inception V3, had de aandacht moeten vangen om redenen die de oppervlakkige "transcendentie" overschrijden. kan "motief maken. Software zoals deze kan zelfs een opstap zijn naar iets groters op weg naar meer geavanceerde kunstmatige intelligentie.

Ogen kunnen zien, maar intelligentie "Perceives"

Kunstmatig zicht is al meer dan een eeuw bij ons. Alles met een camera kan zien. Het is een heel basisch soort dingen. Maar zelfs een blinde kan het begrip van de camera overtreffen van waar het naar kijkt. Tot voor kort waren computers niet in staat om de objecten in foto's gemakkelijk en nauwkeurig te benoemen zonder zeer specifieke parameters. Om echt te zeggen dat een door de mens gemaakt object 'visie' heeft, betekent dit dat het op zijn minst een concreet vermogen heeft om te specificeren waar het naar kijkt, in plaats van ernaar te kijken zonder context te verzamelen. Op deze manier kan het apparaat mogelijk op basis van het gezichtsvermogen reageren op zijn omgeving, net als wij. Perceptie is een absolute noodzaak. Zonder dat is elke betekenis die we hebben nutteloos.

Perceptie via automatische beeldbijschriften

Hoewel we over het algemeen geloven dat elke foto meer dan duizend woorden waard is, deelt Inception V3 die mening niet noodzakelijk. De automatische software voor beeldbijschriften heeft heel weinig te zeggen over wat hij ziet, maar heeft op zijn minst een fundamenteel concreet begrip van wat er in het gepresenteerde frame zit.

Met deze rudimentaire informatie hebben we een stap gezet in de richting van het vermogen van software om visuele stimuli te begrijpen. Door een dergelijke kracht aan een robot te geven zou het in staat zijn om op dergelijke stimuli te reageren, waardoor zijn intelligentie net onder het niveau van de meest elementaire waterdieren komt. Dat klinkt misschien niet zo veel, maar als je kijkt hoe robots het op dit moment doen (wanneer ze buiten hun zeer beperkende parameters worden getest), zul je zien dat dit een flinke sprong in intelligentie zou zijn in vergelijking met de amoebische manier waarop ze kunnen hun eigen omgeving waarnemen.

Wat dit betekent voor AI (en waarom het ver van perfect is)

Het feit dat we nu software hebben die (met 93 procent nauwkeurigheid) afbeeldingen kan bijschrift, betekent dat we enigszins het obstakel hebben overwonnen om computers te krijgen om hun omgeving te begrijpen. Dat betekent natuurlijk niet dat we bijna klaar zijn op die afdeling. Het is ook de moeite waard om te vermelden dat de Inception V3 in de loop van de tijd werd opgeleid door mensen en de informatie die hij "leerde" gebruikte om andere beelden te ontcijferen. Om een goed begrip van iemands omgeving te hebben, moet men in staat zijn om een meer abstract waarnemingsniveau te bereiken. Is de persoon in de afbeelding boos? Vechten twee mensen? Waar huilt de vrouw op de bank over?

De bovenstaande vragen vertegenwoordigen het soort dingen dat we onszelf afvragen wanneer we andere menselijke wezens tegenkomen. Het is het soort van abstract onderzoek dat ons verplicht om meer informatie te extrapoleren dan wat een afbeelding captioning doohickey kan doen. Laten we die kers op de taart niet vergeten, we noemen het graag een emotionele (of "irrationele") reactie op wat we zien. Daarom vinden we bloemen mooi, riolen walgelijk en frietjes lekker. Het is iets dat we ons nog steeds afvragen of we ooit op machineniveau zullen presteren zonder het echt te coderen. De waarheid is dat dit soort "menselijke" fenomeen waarschijnlijk onmogelijk is zonder beperkende programmering. Dat betekent natuurlijk niet dat we niet zullen stoppen met proberen. We zijn tenslotte menselijk .

Denk je dat onze robot-overlords ooit zullen leren om de ingewikkeldheid van een rozenblaadje onder een microscoop te waarderen? Vertel ons in een reactie!