Паралелни текст

(преусмерено са Parallel corpora)

Паралелни текст је текст постављен упоредо са (бар једним) својим преводом. Поравнавање паралелног текста је успостављање кореспонденције између одговарајућих реченица у две половине паралелног текста. Примери збирки двојезичних паралелних текстова су Лебова класична библиотека и Клејова Санскрит библиотека. Издања Библије могу да садрже и оригинални текст и превод (или неколико превода), са циљем да се поједностави упоређивање, односно проучавање; Оригенова Хексапла ("шестострука“ на грчком) садржи једну уз другу шест верзија Старог завета. Најстарији познати пример паралелних текстова је Камен из Розете.

Паралелни корпус је велика колекција паралелних текстова (видети језички корпус). Поравнавање паралелних корпуса на нивоу реченице предуслов је за истраживања у многим областима лингвистике. У току превођења преводилац може да раставља, саставља, умеће или премешта реченице; због тога поравнавање паралелних текстова није једноставно.

Битекст уреди

У области превођења битекст је документ који садржи упоредо оригинал и превод датог текста.

Битекстови се добијају програмом који се зове генератор битекста, који аутоматски поравнава (упарује) оригинал и превод истог текста. Програм начелно упарује два текста реченицу по реченицу. Колекција битекстова зове се база битекстова, односно билингвални корпус, и обично се користи уз помоћ претраживача.

Историја уреди

Идеја битекста приписује се Брајану Харису, који је написао рад о овом концепту 1988. године. Идеју је разрадила група RALI (Recherche appliquée en linguistique informatique односно Applied Research in Computational Linguistics) , група истраживача из области рачунарства и лингвистике, који се баве обрадом природних језика.

Битекст и преводилачка меморија уреди

Појам битекста има сличности са појмом преводилачке меморије. Најбитнија разлика између битекста и преводилачке меморије је у томе да је преводилачка меморија база података у којој су њени делови (упарене реченице) смештене потпуно независно од оригиналног контекста; оригинални редослед реченица је изгубљен. Насупрот томе, битекст задржава оригинални редослед реченица. Међутим, неке реализације преводилачке меморије, као што је Translation Memory eXchange (TMX) (стандардни XML формат за размену преводилачких меморија између програма за машинско превођење) омогућује очување оригиналног редоследа реченица.

Намена битекстова је да их користе преводиоци – људи, а не рачунари. Због тога мале грешке у поравнавању или мала неслагања која би била проблем за преводилачку меморију, овде нису битне.

Види још уреди

Спољашње везе уреди

Паралелни корпуси уреди

  • JRC-Acquis, Вишејезични паралелни корпус законодавства Европске уније: Acquis Communautaire са 231 паром језика
  • Opus пројекат намењен прикупљању јавно доступних паралелних корпуса
  • LILABAR - енглеско-руски паралелни корпус
  • Nunavut Hansard – енглеско – инуктитут паралелни корпус

Документација уреди