Generisanje prirodnog jezika

Generisanje prirodnog jezika (NLG – Natural Language Generation) je zadatak obrade prirodnog jezika koji podrazumeva stvaranje prirodnog jezika od mašinskih reprezentativnih sistema kao što su baza znanja ili logička forma.

Obrada

uredi

Obrada prirodnog jezika je područje u okviru oblasti veštačke inteligencije i lingvistike i bavi se problemima automatizovanog generisanja i razumevanja prirodnih ljudskih jezika. Sistemi za generisanje prirodnih jezika pretvaraju informacije iz računarskih baza u normalan ljudski jezik, dok sistemi za razumevanje prirodnih jezika pretvaraju uzorke ljudskog jezika u formalnije oblike koji olakšavaju rad računarskim programima.

Neki ljudi smatraju NLG suprotnim od razumevanja prirodnog jezika. Razlika može biti objašnjena na sledeći način: dok u razumevanju prirodnog jezika sistem treba da razreši dvosmislenosti datu rečenicu kako bi proizveo jezik mašinske reprezentacije, u NLG, sistem treba da donese odluke kako da koncept predstavi rečima.

Proces generisanja može biti jednostavan kao vođenje liste konzerviranog teksta koji se kopira i možda je povezan sa još nekim tekstom. Rezultati mogu biti zadovoljavajući u nekim jednostavnijim oblastima kao što su horoskopske mašine ili mašine za proizvodnju personalizovanih poslovnih pisama. Prefinjen NLG sistem zahteva uključivanje faza planiranja i spajanje informacija kako bi se omogućilo generisanje taksta koji izgleda prirodno i ne ponavlja se. Tipične faze su:

Određivanje sadržaja: određivanje najznačajnijih karakteristika koje su vredne pomena. Metodi korišćeni u ovoj fazi se vezuju za istraživanje podataka (data mining).

Planiranje diskursa: sveobuhvatni pregled informacija koje treba obraditi.

Slaganje rečenica: spajanje sličnih rečenica kako bi se poboljšala čitljivost i prirodnost. Na primer, rečenice „Sledeći voz je „Caledonian Express“.“ i „Sledeći voz kreće u 10.“ mogu se spojiti u rečenicu „Sledeći voz, koji kreće u 10 je „Caledonian Express“.“

Leksikalizacija: stavljanje reči u koncept.

Stvaranje odnosnih izraza: povezivanje reči u rečenicama uvođenjem zamenica i drugih tipova odnosnih jedinica.

Sintaksička i morfološka realizacija: ova faza je inverzna sintaksičkoj analizi: uzevši u obzir sve prethodno date informacije, sintaksička i morfološka pravila se primenjuju kako bi proizvela površinski string.

Ortografska realizacija: Rešava pitanja interpunkcije i formatiranja.