Automatsko označavanje slika

Automatsko označavanje slika (takođe poznat kao automatsko obeležavanje slika ili lingvističko indeksiranje) je proces kojim računarski sistem automatski dodeljuje metapodatke u obliku natpisa ili ključnih reči digitalnoj slici. Ova primena tehnika kompjuterskog vida se koristi u sistemima za pronalaženje slika za organizovanje i lociranje slika od interesa iz baze podataka.

Izlaz DenseCap softvera za „guste natpise”, analiza fotografije čoveka koji jaše slona

Ovaj metod se može smatrati vrstom višeklasne klasifikacije slika sa veoma velikim brojem klasa – velikim koliko i veličina rečnika.[1][2] Obično se tehnikama mašinskog učenja koriste analize slike u obliku ekstrahovanih vektora karakteristika i reči napomena za obuku, kako bi pokušali da automatski primene napomene na nove slike. Prve metode su naučile korelacije između karakteristika slike i napomena za obuku, zatim su razvijene tehnike korišćenjem mašinskog prevođenja kako bi se pokušalo da se prevede tekstualni rečnik 'vizuelnim rečnikom', ili grupisanim regionima poznatim kao mrlje. Rad koji prati ove napore uključivao je klasifikacione pristupe, modele relevantnosti i tako dalje.

Prednosti automatskog označavanja slika u odnosu na pronalaženje slika zasnovano na sadržaju (CBIR) su u tome što korisnik može prirodnije da odredi upite.[3] CBIR generalno (trenutno) zahteva od korisnika da pretražuju po konceptima slike kao što su boja i tekstura, ili da pronađu primere upita. Određene karakteristike slike u primerima slika mogu zameniti koncept na koji se korisnik zaista fokusira. Tradicionalne metode pronalaženja slika, poput onih koje koriste biblioteke, oslanjale su se na slike koje su ručno označene, što je skupo i dugotrajno, posebno imajući u vidu velike i stalno rastuće postojeće baze podataka slika.

Reference

uredi
  1. ^ Forsyth, David; Ponce, Jean (2012). Computer vision: a modern approach. Pearson. 
  2. ^ Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya; Bernstein, Michael; Berg, Alexander C. (децембар 2015). „ImageNet Large Scale Visual Recognition Challenge”. International Journal of Computer Vision (на језику: енглески). 115 (3): 211—252. ISSN 0920-5691. S2CID 2930547. arXiv:1409.0575 . doi:10.1007/s11263-015-0816-y. hdl:1721.1/104944 . Архивирано из оригинала 2023-03-15. г. Приступљено 2020-11-20. 
  3. ^ „Archived copy” (PDF). i.yz.yamagata-u.ac.jp. Архивирано из оригинала (PDF) 8. 8. 2014. г. Приступљено 13. 1. 2022. 

Literatura

uredi