Ово је водич за препознавање грешака у тексту који је скениран и пребачен у електронски текст коришћењем програма за оптичко препознавање карактера (ОЦР). Такви текстови скоро увек представљају кршење ауторских права.

ОЦР програми раде тако што препознају облик сваког слова појединачно, што доводи до тога да се једно слово замени другим које слично изгледа. Насупрот томе, при грешкама у куцању типично се слово замени другим које је суседно на тастатури. Приликом куцања се такође дешава да се двама словима замене места, што ОЦР у принципу не ради (наравно могуће је да нпр. ни препозна као ин и слично - види доле).

У ћириличним текстовима, изузетно често се дешава да се ОЦР збуни између слова и, н, п или о, е, с. У латиничним, честе су замене између I, l, 1 као и o, e, c. Могуће су и забуне између више слова, на пример шт може бити препознато као ип. Изузетно јасан знак ОЦР-а су тачке, зарези, цртице, наводници и слични ситни знаци тамо где им место није или пак њихов недостатак тамо где треба да буду; у питању су мрљице на страни које су препознате као знаци односно непрепознавање знакова јер су оштећени. Најзад, уколико је ОЦР био лоше подешен па му није речено да не препознаје латинична слова, у ћириличном тексту са може десити да слова а, е, о буду замењена са латиничним a, e, o, било у средини речи, било кад стоје самостално.

Типичан ОЦР-ован текст уреди

Хан Поглед, кључно непријатељско упориште у спољној одбрани Власенице и веза између ње и Хан Пијеска, налази се у средини шуме, та.ко да је нападач могао постићи изненађење. дгсна колона — 1 батаљон (Ро-маниски) и Браиначки баталзон Бирчанског одреда — нападала .је на Хан Поглед. Средња колона — 2. и 3. батаљон Групе ударних батаљона и остатак Бирчанског одреда — нападала је на само мјесто. 2 батаљон и чета Бирчанског одреда нападали су на Кик, „Висевац и Орловачу, а остале сиаге вршиле су директан напад на Власеницу. Лева колона — чета 3. батаљона н Залуковачки добровољачки батаљон1 — нападала је на Милиће.

Преглед типичних грешака ОЦР-а у тексту уреди

Хан Поглед, кључно непријатељско упориште у спољној одбрани Власенице и веза
између ње и Хан Пијеска, налази се у средини шуме, та.ко да је нападач
  • Тачка у средини речи је мрљица на страни коју је ОЦР препознао као тачку.
могао постићи изненађење. дгсна колона  1 батаљон (Ро-маниски) и
  • Велико Д препознато је као мало. Мада се ово може десити при куцању, цела реч исписана великим словима је већ веома сумњива, посебно ако се састоји од слова која имају исти изглед и мала и велика (тј. речи које не садрже а, е, б).
  • Слово е препознато као г. Нису близу на тастатури...
  • Повлака је написана својим карактером, који мало ко има на тастатури. Овде додуше може бити у питању и текст изворно куцан у Ворду.
  • Цртица у средини речи где јој место није изузетно је јасан знак ОЦР-а. У питању је цртица која је у оригиналном тексту преламала реч на крају реда.
Браиначки баталзон Бирчанског одреда — нападала .је на Хан Поглед. Средња
  • Пошто се ОЦР програми за ћирилицу првенствено тренирају на руском тексту, често имају проблема са љ и њ.
  • Тачка на почетку речи је такође мрљица. При брзом куцању може се десити да се тачка са краја реченице пребаци на почетак следеће и слично, али овде иначе не би требало да буде тачке.
колона — 2. и 3. батаљон Групе ударних батаљона и остатак Бирчанског одреда —
нападала је на само мјесто. 2 батаљон и чета Бирчанског одреда нападали су
  • Недостаје тачка после редног броја. Ово се додуше може десити и код брзог куцања.
на Кик, Висевац и Орловачу, а остале сиаге вршиле су директан напад на
  • Наводник где му место није такође је мрљица коју је ОЦР препознао.
  • Ћирилично н је препознато као и.
Власеницу. Лева колона — чета 3. батаљона н Залуковачки добровољачки
  • Овог пута је и препознато као н.
батаљон1 — нападала је на Милиће.
  • Број на крају речи је највероватније фуснота у оригиналном тексту.