Upitnički sistemi

Upitnički sistemi (sistemi: pitanje-odgovor, engl. Question answering) su vrsta pretraživanja informacija. Za datu kolekciju dokumenata (kao što je Internet ili lokalna kolekcija) sistem treba da bude u stanju da pronađe odgovore na pitanja postavljena na prirodnom jeziku. Upitnički sistemi se smatraju složenijim tehnikama obrade prirodnih jezika od pretraživanja i pronalaženja informacija, i nekad se na njih gleda kao na sledeći korak iza pretraživačkih mašina.

Istraživači u ovoj oblasti moraju da se nose sa velikim opsegom pitanja kao što su: činjenice, liste, definicije, pitanjima koja počinju sa kako, zašto, pitanjima sa semantičkim ograničenjima, itd. Kolekcije variraju od malih kolekcija do celog Interneta.

  • Upitnički sistemi zatvorenog domena odgovaraju na pitanja iz specifične oblasti, na primer samo na pitanja vezana za kvarove na automobilima. Izgradnja ovakvog sistema može biti olakšana time što sistemi za obradu jezika mogu da koriste manje količine znanja koje se najčešće organizuje u vidu ontologije.
  • Upitnički sistemi otvorenog tipa odgovaraju na pitanja iz svih oblasti, oslanjaju se na opšte ontologije i svetsko znanje. S druge strane, ovi sistemi najčešće koriste veće baze znanja u kojima mogu pronaći odgovor.


Arhitektura uredi

Prvi upitnički sistemi su razvijeni šezdesetih godina dvadesetog veka i bili su pre svega interfejs za ekspertske sisteme koji je napisan da bi čovek komunicirao sa ovim sistemom na prirodnom jeziku. Nasuprot tome, savremeni upitnički sistemi koriste tekstualne dokumente kao skup znanja kojim raspolažu.

Savremeni upitnički sistemi najčešće sadrže modul za klasifikaciju pitanja koji određuje tip pitanja i tip odgovora. Nakon analize pitanja, sistem najčešće koristi nekoliko modula koji pokušavaju da smanje količinu teksta u kojoj treba naći odgovor. Modul za pronalaženje dokumenata koristi pretraživačke mašine da pronađe dokumente i paragrafe u kojima se može nalaziti odgovor na pitanje. Na kraju sistem pokušava da konstruiše i sam odgovor. Na primer, ako je pitanje bilo „Kada je umro Aristotel?“, tada sistem treba da ustanovi da se radi o pitanju čiji odgovor treba da bude odrednica za vreme. Potom nekoliko modula treba da pronađe dokumente u kojima se pominje Aristotelova smrt. Ovo je komplikovan deo, s obzirom na to da se eksplicitan odgovor ne mora nalaziti u tekstu. U tekstu ne mora pisati „Aristotel je umro 322. godine p. n. e.“ već može pisati „Ne zna se tačno kada je Aristotel rođen, ali je svakako on bio jedan od najvećih filozofa koji su ikada živeli. Prema nekim podacima, umro je najverovatnije 322. godine p. n. e.“ Sistem treba da prepozna da se i druga rečenica ovog teksta odnosi na Aristotela, kao i da prpozna koji deo rečenice sadrži vremensku odrednicu.

Metodi uredi

Upitnički sistem umnogome zavisi od dobrog korpusa. Bez dokumenta koji sadrži odgovor, nijedan savremeni upitnički sistem ne može mnogo toga da uradi. Zato je logično da sistemi koji koriste veće kolekcije dovode do boljih rezultata. Pojam redundantnosti podataka u velikim kolekcijama dovodi do toga da informacije mogu biti pronađene na različitim mestima u različitom obliku. S obzirom na to:

  • Sistem može pronaći neku informaciju čak iako nije u stanju da izvršava komplikovane jezičke transformacije, jer će se odgovor u traženom obliku naći u nekom dokumentu.
  • Sistem može da otkrije i odbaci pogrešne informacije, uz pretpostavku da će se tačan podatak javiti više puta od pogrešnog.

Plitki metodi uredi

Kod plitkih metoda (engl. Shallow) upitnički sistemi koriste pretragu na osnovu ključnih reči da bi pronašli deo teksta u kome se može nalaziti odgovor na pitanje. Rangiranje se potom vrši prema sintaksnim karakteristikama kao što je red reči ili sličnosti teksta i upita. Kada koriste veliku kolekciju dokumenata neki sistemi koriste šablone da pronađu odgovor u nadi da je veliki deo odovora preformulisano pitanje. Tako npr, ako je pitanje „Šta je računar?“ sistem će ovo pitanje predstaviti u obliku „Šta je X?“ i pokušati da nađe odgovor u obliku „X je Y.“ Ovakav pristup je dovoljno dobar za jednostavna pitanja.

Duboki metodi uredi

Spoljašnje veze uredi