Hva er apis for bildegjenkjenning, og hva kan de gjøre for deg?

Hva er API-er for bildegjenkjenning, og hva kan de gjøre for deg? Denne artikkelen vil klargjøre hva bildegjenkjenning er, hva et API gjør, og hvordan det kan hjelpe deg eller bedriften din å få mer ut av internett. Bildegjenkjenning har et enormt potensial for bedrifter og for individuelle synshemmede internettbrukere.

Hva er en API for bildegjenkjenning?

Bildegjenkjenning er der et programvare oppdager egenskapene til et bilde og kategoriserer det nøyaktig. Hvis du for eksempel laster opp et bilde av en Ferrari 458 til et API for bildegjenkjenning, bør det gjenkjenne at det er en bil og at det er (eller bør være) rødt. Avhengig av API, kan ytterligere klassifisering være mulig, avhengig av hvilken type bilde du bruker.

Dette kan virke veldig enkelt - mennesker kan se på et bilde og fortelle deg hva det er et bilde av uten å prøve, mesteparten av tiden - men dette har vært et vanskelig problem å lære datamaskiner å løse. Mye arbeid har gått for å finne ut hvordan en datamaskin kan forstå hvordan ting ser ut, og vi har gjort store fremskritt, fra muligheten til å gjøre omvendt bildesøk til Googles berømte Deep Dream-nettverk.

En API er et applikasjonsprogramgrensesnitt. Det er egentlig en mellommann mellom programrutiner som forteller ett element hvordan man jobber med et annet, eller gir verktøyene de trenger for å utføre en funksjon. Det finnes mange titalls APIer som kan oppnå alle slags mål ved hjelp av en rekke programmeringsspråk. I denne sammenhengen er et API-format for gjenkjenning verktøyet du kan bruke for å få tilgang til den dype læringskraften til noen kommersielle systemer for bildegjenkjenning.

Du trenger mye datakraft for å utføre bildegjenkjenning. Du trenger masser av data og kraften til å tolke det hele. De fleste brukere har rett og slett ikke de enorme ressursene til å bygge sin egen maskin for dyp læring. Store navn som Googles Vision API, Microsofts Face API, ImageNet og andre har slike maskiner og gir tilgang til dem gjennom APIer, enten gratis eller mot betaling. Dette lar bedrifter i alle størrelser få tilgang til denne kraften og brukere får nye opplevelser som et resultat.

Hvordan kommer bildegjenkjenning til å endre vår internettopplevelse?

Ulike internettbrukere vil få forskjellige fordeler fra bildegjenkjenning. La oss se på en hypotetisk eier og en hypotetisk bruker for å se hvordan begge sider kan ha nytte av det.

Virksomhetens fordeler med bildegjenkjenning

La oss som et eksempel si at du driver en selgportal som ligner på Etsy eller et datingside. Du vil administrere kvaliteten og egnetheten til alle bildene lastet opp av brukere. Du vil blokkere alle voksne eller uegnede bilder og sortere dem i de aktuelle kategoriene, men du kan umulig gjøre alt for hånd.

Gå inn i bildegjenkjennelses-API. Du kan bruke API-en, sammen med en passende bildegjenkjenningsmaskin, til å skanne hvert enkelt bilde og definere det etter angitte kriterier. Så du kan skanne biblioteket med bilder etter uanstendige bilder og slette dem. Du kan skanne bildene og sortere de som inneholder mat i kategorien “mat” og strikkevarer til “ull” -kategorien. Når du har fortalt APIen hva du skal gjøre, blir prosessen automatisert.

Her er det også muligheter for augmented reality og interaktiv bilde og video. Du kan bruke bildegjenkjenning for å få et program til å gjenkjenne objekter i den virkelige verden. For eksempel kan du ta et bilde av et par joggesko noen har på seg på gaten. Hvis programmet gjenkjenner joggeskoene, kan bildet utvides med en lenke for å kjøpe dem for deg selv. Dette kommer virksomheten til gode (det gir en umiddelbar salgsmulighet) og kommer brukeren til gode (de får det de vil akkurat nå).

Brukeren har fordelene av bildegjenkjenning

Eksempelet på sneaker er bare en åpenbar måte brukere kan dra nytte av bildegjenkjenning. Utvidet virkelighet betyr at vi øyeblikkelig kunne få tilgang til anmeldelser, prisinformasjon og mye data bare ved å ta et bilde av et produkt. Det gir brukere enorme datamengder for å hjelpe dem med å ta en kjøpsbeslutning.

Mark Zuckerberg oppsummerte en ofte oversett fordel for bildegjenkjenning i sin tale om AI tidligere i år. Han så for seg et API for bildegjenkjenning som jobbet med blinde eller svaksynte som kunne "lese" et bilde og beskrive hva det ser høyt. Dette kan ha enorme konsekvenser for nedsatte internettbrukere - eller, med utvidet virkelighet, ute i den virkelige verden en stund.

Bildegjenkjenning spiller også en rolle i kjøretøyets sikkerhet. De nye autonome teknologiene for bremsing og unngåelse av kollisjon som introduseres fungerer på samme måte som APIene vi har snakket om. De skanner og vurderer bilder mange ganger i sekundet for å holde deg og bilen din trygg når du er på veien. Denne teknologien som forteller autonome biler hva som er rundt dem også.

API-er for bildegjenkjenning vil ikke revolusjonere internettopplevelsen på egenhånd. De jobber sammen med eksisterende teknologi for å legge til et lag med samhandling og fordypning i verden vi ser. Mens eksemplene på denne artikkelen er begrensede, er det et stort potensial for spill, film, bilindustrien, detaljhandel, underholdning og enhver teknologibasert industri. Dette er bare begynnelsen på hva intelligente systemer kan oppnå!