Преводилачка меморија

Преводилачка меморија (енгл. translation memory или ТМ) је тип базе података која се користи у рачунарским програмима креираним да помогну преводиоцима.

Неки софтверски програми који користе преводилачку меморију познати су као програми за рад се базом података преводилачке меморије (translation memory managers или ТММ). Преводилачке меорије се обично користе заједно са рачунарски потпомогнутим превођењем (computer assisted transalation или CAT алатком)), програмом за обраду података (word processing program), системом за управљање меморијом термина (terminology management systems), вишејезичним речницима или чак сировим резултатом добијеним машинским превођењем (raw machine translation output). Преводилачка меморија састоји се од сегмената текста на изворном језику и њиховог превода на један или више циљаних језика. Ови сегменти могу бити одломци, пасуси, реченице или фразе. Појединачне речи нису у домену преводилачке меморије, већ се њима баве терминолошке базе. Истраживања показују да многе компаније које имају вишејезичку документацију користе системе са преводилачком меморијом.

Употреба уреди

Преводилац прво уноси изворни текст (тј. текст који треба превести) у преводилачку меморију. Програм затим скенира текст како би пронашао сегменте у својој бази података које ће користити да оформи делимично преведен унесени текст. Такав текст се приказује преводиоцу да га прегледа. Преводилац може прихватити овај предлог превода, одбити га или га модификовати и користити ту модификовану верзију. У овом случају модификована верзија се снима и чува у бази података.

Неки системи преводилачке меморије прибегавају само буквалном поклапању, тј. могу превести само оне сегменте текста који се тачно поклапају са онима постојећим у бази података. Постоје и они који користе фази алгоритамско поклапање (fuzzy matching algorithms) да узврате сличне сегменте који се приказују преводиоцу другачије обележени. Флексибилност и снага алгоритамско поклапања (matching algorithm) у великој мери одређује извршење преводилачке меморије, иако за нека тражења повратна стопа потпуних поклапања може бити довољно висока да оправда приступ буквалног поклапања.

Сегменте код којих нема поклапања преводилац мора ручно превести. Ови нови сегменти се сачувају у бази података како би могли бити коришћени у другим преводима.

Преводилачке меморије најбоље функционишу на текстовима у којима има доста понављања, као што су техничка упутства. Традиционално, преводилачка меморија се не сматра адекватном за књижевне текстове зато што ту има мало понављања. Међутим, други их сматрају корисним и за текстове у којима нема понављања зато што извори креиране базе података теже да посложе потраге да би утврдиле адекватну употребу термина. Ако се систем ПМ користи доследно на адекватним текстовима током одређеног периода, може преводиоцима уштедети пуно посла.

Главне предности уреди

Програми за рад са базом података преводилачке меморије су најпогоднији за превођење техничке документације и докумената који садрже специјализован вокабулар. Њихове предности укључују:

Сигурност да су преведени документи доследни, укључујући честе дефиниције, фразе и терминологију. Ово је важно када различити преводиоци раде на истом пројекту.
Убрзавање укупног преводилчког процеса; како ПМ „памти“ претходно преведен материјал, преводиоци треба да га преводе само једном.
Смањује цену дугорочних преводилачких пројеката; нпр. текст o упутствима, поруке упозорења или серије докумената треба превести само једном, a могу се користити више пута.
За велике документационе пројекте, уштеда времена и новца захваљујући коришћењу ПМ пакета је видљива чак и на првом преводу новог пројекта, али најчешће таква уштеда је очигледна тек код следеће верзије превода.

Главне мане уреди

Основни проблеми који отежавају ширу употребу програма за рад са базом података преводилаче меморије су:

концепт преводилаче меморије се заснива на премиси да се реченице које су коришћене у претходним превођењима могу „рециклирати“. Међутим, основни принцип превођења је да преводилац мора превести тачну поруку текста, a не реченице које чине тај текст.
Програми за рад са базом података преводилаче меморије се не уклапају лако у постојеће преводилачке процесе. Да би се могле искористити предности ПМ технологије, процес превођења се мора редизајнирати.
Програми за рад са базом података преводилачке меморије данас не подржавају све формате у којима се могу наћи документи.
Програми морају бити направљени тако да се постиже највеће ефективност, тј. мора се пратити развој нових технологија код програма за рад са базом података преводилачке меморије.
У случајевима где читав процес превођења врши преводилац код куће, потребне су специјалне алатке како би преводилац могао радити са текстовима који су обрађени програмом за рад са базом података преводилачке меморије.
Цена уноса корисникових претходних превода у ПМ базу података, тренинг, као и било које побољшање захтевају такође велика улагања.
Одржавање ПМ базе података је и даље процес који се обавља мануално, бар у већини случајева. Одржавање је неопходно, a свако занемаривање истог води до значајног смањења употребе и квалитета МП поклапања.
као што је већ раније истакнуто, програма за рад са базом података преводилачке меморије можда нису погодни за превод текстова код којих нема много понављања или текстова који не садрже непромењене целине при ревизијама. Технички текстови су најпогоднији за ПМ, док су књижевни текстови мање погодни.
квалитет превода путем ПМ није гарантован. Ако је превод неког сегмента нетачан, он ће се као такав поновити и следећег пута што доводи до сталног понављања грешке.
Проблем се јавља и код сложених реченица јер различити језици имају различите структуре реченице,a превод једног дела реченице најчешће није праћен адекватним преводом остатка реченице.
Развој ПМ узрокује лакше експлоатисање преводилаца.

Функције уреди

Off-line функције уреди

Увоз (Import) уреди

Ова функција се користи за трансфер текста и његовог превода из текст фајла (text file) у ПМ. Унос може бити урађен из сировог формата, у ком је спољашњи извор текста доступан за унос у ПМ заједно са својим преводом. Понекад корисник мора текст поново обрадити. Постоји још један формат који се може користити за унос: матични формат (the native format). Овај формат ПМ користи како би сачувао преведене фајлове у меморију.

Анализа уреди

Процес анализе се развија кроз следеће кораке: Текстуално рашчлањивање Веома је важно да интерпункција буде правилно препозната, како би се направила разлика између краја реченице и скраћенице. Зато је неопходно пре почетка урадити маркирање (mark-up), односно обележавање. Обично материјали који су већ били обрађени путем неког помоћног преводилачког програма су маркирани. Други специјални елементи у тексту могу бити уочљивији маркирањем. Неке специјалне елементе, као што су тачни називи или шифре, не треба преводити, док друге треба пребацити у матични формат.

Лингвистичко рашчлањивање Редукција на основну форму се користи за припремање листе речи и текста за аутоматско добијање термина из терминилошке базе. Са друге стране, синтаксичко рашчлањивање се користи за добијање термина који се састоје од више речи или фразеологизама, из изворног текста. Тако се рашчлањивање користи да би се утврдило које речи могу оформити фразе.

Сегментација Њена сврха је да изабере јединице које ће бити најкорисније за превођење. Сегментација је слична рашчлањивању. Ради се на једном језику користећи површну анализу и поравнање на бази сегментирања. Ако преводилац ручно уради сегментирање, касније верзије документа неће имати поклапања са ПМ која се ослањају на то исправљено сегментирање већ ће изнова правити грешке. Преводиоци обично обрађују реченицу по реченицу, иако превод једне реченице зависи од превода оних реченица око ње.

Поравнање Ту је задатак проналажење одговарајућег превода између изворног и циљног текста. Требало би да постоји повратна веза од поравнања до сегментације и добар алгоритам за поравнање би требало да може да исправи почетно сегментирање.

Вађење термина као улаз може послужити претходни речник. када је вађење непознатих термина у питању може се користити рашчлањивање базирано на статистици текста. Она се користи како би се проценило колико посла је потребно да би се извршило то превођење. Ово је јако корисно при планирању и распоређивању времена и посла. Статистика превођења обично броји речи и процењује број понављања у тексту.

Извоз (export) уреди

Извоз врши пренос текста из ПМ у спољашњи текст фајл. Увоз и извоз би требало да су инверзни.

Online функције уреди

када преводимо једна од главних сврха ПМ је то што може да врати најкорисније одговоре (correspondance) која се налазе у меморији како би преводилац могао да изабере оно најбоље. ПМ мора приказати и извор и циљни текст како би истакао сличности и разлике.

Учитавање уреди

Могуће је из ПМ добити један или више понуђених одговора. Потпуно поклапање Потпуно поклапање се јавља када је поклапање између сегмента садашњег извора и оног сачуваног идентична. Потпуно поклапање је оно кад преводимо реченицу коју смо превели раније. Ово поклапање зовемо још и „100% поклапање“. Потпуно поклапање у контексту In Context Exact matching Ово поклапање се дешава у потпуно истом контексту, тј. на истој локацији у пасусу. контекст је често одређен околним реченицама и атрибутима као што су назив фајла, датум и дозвола. Фази поклапање када поклапање није потпуно онда је „ фази” fuzzy поклапање. Неки системи показују који је проценат таквих поклапања. Ти подаци се не могу упоређивати на нивоу система уколико метод рачунања није спецификован

Ажурирање уреди

ПМ се ажурира са новим преводом чим преводилац прихвати тај превод. као и увек кад је ажурирање базе података у питању, поставља се питање шта радити са претходним садржајем у бази података. ПМ се модификује тако што се уноси у њему или мењају или бришу.

Аутоматско превођење уреди

Меморија превођења може аутоматски извршити супституцију и учитавање, без помоћи преводиоца. Аутоматско учитавање ПМ се одликује аутоматско учитавање проценом преведених одговора на преводиочевој радној површини workbanch.

Аутоматска супституција Потпуна поклапања се јављају у преводу нових верзија документа. када аутоматски преводимо не можемо упоредити превод са оригиналом, па ако постоје неке грешке у оригиналу оне ће се пренети.

Умрежавање (Networking) уреди

када смо умрежени током превођења могуће је превести текст ефикасније јер радимо заједно са групом преводилаца. На овај начин су преводи који су унесени од стране једног преводиоца доступни и другима. Ако је меморија превођења пре финалног превода доступна већем броју људи онда су и веће шансе да се исправе грешке појединаца.

Меморија текста (text memory) уреди

Меморија текста је радикална иновација на пољу меморије превођења. Меморија текста укључује ауторску меморију author memory и преводилачку меморију. Овај концепт је основа Lisa Oscar xml:tm standard-а.

Ауторска меморија уреди

јединствен идентификатор је исти за сваку јединицу текста у оквиру документа током тог ауторског циклуса. јединица текста представља текст подељен на појединачне реченице или текст састављен од елемената документа у случајевима кад претходна подела није могућа.

Преводилачка меморија уреди

јединствени идентификатори током превођења памте тако да документ на циљном језику буде тачно поравнан на нивоу јединице текста. Ако се изворни документ накнадно модификује, онда оне јединице текста које нису измењене могу се директно пренети у нову циљну верзију документа без икакве интервенције преводиоца. Ово уводи концепт прецизног или савршеног поклапања у меморији превођења. Xml:tm се такође могу користити за много прецизнија поклапања меморије превођења

Историјски развој уреди

концепт који је основа меморије превођења није нов-истраживања овог концепта на универзитетима почела су крајем седамдесетих, a најранија комерцијализација је постала доступна крајем осамдесетих- међутим на тржишту су заживеле тек крајем деведесетих. У почетку су ПМ системи чували поравнане реченице и из изворног и циљног текста у базу података, из које су се могли позвати у току превођења. Проблем са овим приступом је то што нема гаранције да се нова реченица из изворног језика налази у истом контексту као и оригинална реченица из базе података. Зато је неопходно када долази до оваквог поклапања да преводилац прегледа поклапање у меморији да би то онда било релевантно у новом документу. Иако јефтиније од потпуног превода, овај додатни преглед повећава цену.

Скорашњи трендови уреди

једна од битнијих скорашњих иновација је концепт меморије текста. Ово је основа препорученог LISA OSCAR xml:tm стандарда. Text memory унутар xml:tm укључује ауторску меморију и преводилачке меморије. Ауторска меморија се користи за праћење промена у ауторском циклусу. Меморија превођења користи информацију из ауторске меморије како би остварила више фокусиранијих и повољнијих ПМ поклапања. Иако су примарни циљ били XML документи, xml:tm се може користити на било ком документу који може бити конвертован у XLIFF формат.

Друга генерација меморија превођења уреди

Много снажнија од ПМ прве генерације, укључују и машину за лигвистичку анализу, користи технолошку јединицу да разбије сегменте на терминолошке групе и аутоматски генерира специфичне глосаре.

Преводилачка меморија и сродни стандарди уреди

TMX уреди

Формат размене преводилачке меморије (translation memory exchange format). Овај стандард омогућава размену меморије превођења међу снабдевачима превода. TMX је усвојен од стране преводилачке заједнице као најбољи начин за унос и износ преводилачке меморије. Садашња верзија од 1.4б –дозвољава поновно стварање оригиналног извора и циљаног документа из TMX базе.

TBX уреди

Формат размене терминолочке базе (term base exchange format). Овај стандард дозвољава размену терминолошких података укључујући и детаљне информације o речи. костур TBX чине: ISO 12620, ISO 12200 и ISO Committee Draft 16642, познат као ТМФ (Terminological Markup Framework). ISO 12620 обезбеђује инвентар добро дефинисаних „категорија података“ са стандардизованим називима који функционишу као елементарни типови података или као унапред дефинисане вредности. ISO 12200 (такође познат и као MARTIF) обезбеђује основу за структуру језгра TBX. ТМФ обухвата структурни метамодел за језике за означавање терминологије уопште, без обзира на то који се XML стил репрезентације користи.

SRX уреди

Формат за размену правила сегментације (Segmentation Rules Exchange format). SRX је намењен да побољша TMX стандард тако да се база меморије превођења, која се размењује међу корисницима, може користити ефективније. Могућност спецификације правила сегментирања која су била коришћена у претходним превођењима, повећава леверагинг које се може достићи.

OLIF уреди

(Open Lexicon Interchange Format). OLIF је отворен стандард за размену терминолошких и лексичких података. Иако осмишљен као средство за размену лексичких података између одговарајућих машина за превошење лексикона, прерастао је у општи стандард за терминолошку размену.

xml:tm уреди

xml:tm је нови радикалан приступ ПМ базиран на концепту меморије текста који укључује ауторску меморију и преводилачку меморију. Једна од првих значајнијих предности у технологији ПМ још од њеног настанка. Xml:tm додељена је Lisa OSCAR by XML-INTL