Јуникод

Уникод (енгл. Unicode, енгл. изговор: /ˈjunəˌkoʊd/ или /ˈjuːnɪkəʊd/) индустријски је стандард за доследно енкодовање, приказ и руковање текстом из већине светских писама.

Развој електронског записа текста уреди

Први рачунари су били прављени претежно за енглеско говорно подручје и имали су подршку само за енглески алфабет, за бројеве, заграде и још понеки контролни знак, што је чинило укупно 128 могућих слова (у 7 бита). То је био тзв. ASCII или US-ASCII (амерички) стандард.

Касније је скуп знакова проширен на 256 (8 бита), а „горњих“ 128 знакова је било коришћено за додатне знакове. Из неке навике је и овај проширени ASCII називан ASCII, тако да ту често долази до забуне. Да би постојала подршка за више језика, смишљане су тзв. кодне стране (Code Page) које дефинишу понашање тог додатног скупа слова. Основна кодна страна на персоналним рачунарима (PC437) у том горњем скупу дефинише разне графичке знакове за цртање текстуалних прозора и слично. Касније је развијено још пуно кодних страна које подржавају одређене језике. Тако постоје Latin1 (ISO-8859-1) за латинична писма Западне Европе (Француска, Њемачка, Шпанија, ...), Latin2 (ISO-8859-2) и Windows-1250 за латинична писма Источне Европе (наша латиница и сл.), ISO-8859-5, KOI8-R и Windows-1251 за ћирилицу... Основни проблем са кодним странама је то што се међусобно искључују, тј. цијели документ мора да буде написан истим писмом. То углавном није проблем реализовати, али ако би било потребно помијешати два писма, као на пример у неком туристичком водичу где заједно постоји и текст на српском, на енглеском и на француском, наилази се на проблем. Због тога се дошло до идеје да се направи јединствени запис за све језике - Уникод.

Преглед постојећих верзија Уникода уреди

Постоји више верзија Уникода. Основна верзија је двобајтни формат записа до 2¹⁶ = 65536 знакова. Њен назив је UCS-2 зато што користи два октета, односно два бајта. Са тих 65536 знакова ријешен је проблем записа скоро свих постојећих писама (укључујући чак и нека измишљена, као на пример клингонско писмо). Овај тип Уникода се назива Plain UCS-2 или UTF-16.

Сада се јавља проблем алокације (доделе) простора за Уникод-кодирану поруку на медијуму који се користи. Ако је реч о неком документу на диску, он ће да заузима дупло више простора него конвенционалан документ јер ће се сваки знак записивати са два бајта уместо само са једним. Ако је ријеч о преносу података преко рачунарске мреже, биће потребно пренијети дупло више података, па ће самим тим и пренос да траје дупло више (односно да кошта дупло више). Поставља се питање да ли је то сувише велика цијена за универзално писмо и да ли постоји неки начин да се тај проблем превазиђе и избјегне. Као рјешење увијек стоји могућност да се записује неком одговарајућом кодном страницом и троши бајт по знаку, ако није неопходно коришћење више писама у истом документу (што се ријетко дешава). Друго рјешење је коришћење тзв. трансформационих шема за погоднији запис и пренос података коришћењем Уникода.

Прво је развијена Уникод трансформациона шема са основном јединицом од 8 бита (UTF-8). Помоћу ње се знак записује у једном, два или три бајта, у зависности од тога о ком је знаку реч. Ова трансформациона шема је превасходно згодна за употребу у језицима који користе латиницу. О UTF-8 ће бити више речи у поглављу Укратко о UTF-8.

Један дио Mail Transfer Agent-а, као и званични стандард за електронску пошту (IETF: STD 11, RFC 822) подржава само 7-битне mail поруке. MIME стандарди (RFC 2045, RFC 2046, RFC 2047, RFC 2048 и RFC 2049) омогућавају пренос вишебитних ријечи преко Интернет mail-а, користећи Base64 и Quoted Printable начине кодирања, међутим, они нису прављени за пренос Уникода него за пренос било каквих датотека и нису били оптимална рјешења. Због тога је касније развијена 7-битна трансформациона шема UTF-7. Ту се знак записује у једном или у неколико бајтова, слично као и у UTF-8. Основна разлика је у томе што UTF-7 користи само Base64 кодиране знакове који без проблема (увек могу да се правилно одштампају) могу да се преносе путем електронске поште. За такву намену се показало да је UTF-7 бољи запис него UTF-8 када се кодира са Base64 или са Quoted Printable алгоритмима.

Постоји и новији Уникод стандард под називом UCS-4 који користи 4 бајта за запис 2³¹ = 2147483648 знакова подијељених у тзв. равни. Прва два бајта дефинишу раван, тако да има 2¹⁵ = 32768 равни. Друга два бајта дефинишу знак унутар равни, тако да има 2¹⁶ = 65536 знакова по равни. Тај новији формат је више направљен као план за будућност него као реална опција, пошто још увијек ниједан знак није алоциран у новодобијени простор, односно сви за сада дефинисани знакови (цијели UCS-2) се налазе у равни 0 или основној вишејезичној равни (Basic Multilingual Plane, BMP). Међутим, пошто је UCS-4 нови стандард за Уникод, треба и њега имати у виду. Да би се UCS-4 транспарентно увео у употребу редефинисани су формати записа UTF-7, UTF-8, UTF-16 и UTF-32. То је учињено тако да сваки знак из UCS-2 има исту репрезентацију у UTF-7 и UTF-8 као и раније. UTF-16 је у неку руку синоним за UCS-2 и садржи више од два бајта само у случају да се кодира неки знак ван „Основне језичке равни“ (BMP), који за сада не постоје. За више информација, погледајте табелу Шема кодирања UCS-4 у UTF-8. UTF-32 је у ствари начин записа UCS-4 у коме се користе сва четири бајта. Због тога што виши и нижи бајт (или два бајта) могу да се запишу у меморију на два начина, постоје још по двије подваријанте UTF-16 и UTF-32 које се разликују по редоследу бајтова. То су UTF-16BE (big endian) и UTF-16LE (little endian) и UTF-32BE и UTF-32LE. Ово није уведено да би се увела додатна забуна и збрка, него зато што различите архитектуре рачунара различито чувају податке.

Постоје двије организације које дефинишу два стандарда за Уникод. Један формат је развијен од стране тзв. The Unicode Consortium под називом The Unicode Standard. Други стандард је развила Међународна организација за стандардизацију - International Organization for Standardization, под називом ISO/IEC 10646. Та два стандарда су скоро идентична и разликују се по питању тзв. Хан унификације (представљање јапанских, кинеских и корејских знакова једним јединственим скупом знакова), око додатних знакова за дефинисање акцената, а од скоро и у томе што Unicode Consortium није још подржао стандард UCS-4. Међутим, за нашу употребу слободно можемо да сматрамо да су потпуно идентични. Међународна организација која дефинише стандарде за Интернет - Internet Engineering Task Force, IETF је у својим стандардима, тзв. „захтјевима за коментарима“ (Request for Comments, RFC), у којима је дефинисано све што постоји на Интернету, прихватила UTF-7 (RFC 1642 и RFC 2152), UTF-8 (RFC 2044 и RFC 2279) и UTF-16 (RFC 2781), чиме су они и „званично“ ушли у употребу на Интернету, тј. свуда. У најновијим стандардима IETF је изоставио Unicode Consortium и користи само верзију ISO 10646, што значи да је званично призната верзија ISO 10646.

У HTML језику за опис веб страница се јављају још два начина за кодирање Уникод знакова. Ови начини троше много више простора него оригинални Уникод запис и намијењени су за коришћење унутар неке од кодних страница за убацивање понеког знакова из неке друге кодне странице. Један начин је запис окталних вредности UTF-8 бајтова. Записује се тако што се прво запише знак &92;, па онда октална вриједност бајта. Ако тај знак у UTF-8 кодирању садржи више бајтова, сваки бајт се записује на исти начин. Тако, на примјер, знак &1060; чији је UCS-2 код U+0424 (U+ означава да је ријеч о Уникод знаку), а UTF-8 запис 0xD0 0xA4 има свој HTML октални запис као \320\244, пошто је 0xD0 = 0320(октални) = 208(децимални) и 0xA4 = 0244 = 164.

Други начин записа Уникод знакова у HTML-у је путем децималне вриједности њиховог UCS-2 кода. Записује се тако што се прво запишу знакови &#, па онда децимална вриједност UCS-2 кода и на крају знак ;. Тако би се, на примјер, горе поменути знак &1060; са UCS-2 кодом U+0424 записао у HTML децималном запису као Ф, пошто је 0x0424 = 02044 = 1060.

Уређивач текста Kate уреди

Неки текстуални уређивачи такође имају опцију да сачувају текст на више начина кодирања. Један од таквих је Kate који је саставни део графичког окружења КДЕ под оперативним системом Линукс. Он такође може да сачува текст и у чистом формату UCS-2 или у UTF-16 (као делу UCS-4). За нас је битан само формат UTF-8. Једноставно се из менија Приказ изабере подмени Подеси кодирање и ту се изабере жељено кодирање, односно UTF-8.

Iconv - претварач кодирања уреди

На УНИX оперативним системима постоји библиотека iconv која врши конверзију из једног у други начин кодирања на веома једноставан начин. Постоји и еквивалентан командно-линијски (command line) програм који претвара датотеке из и у све могуће начине кодирања. Листа кодова из којих и у које ова библиотека/програм може да конвертује заузима више од 3 пуне стране и може се рећи да подржава све могуће начине кодирања.

Фонтови који подржавају Уникод уреди

Да би се користио Уникод у припреми докумената, потребно је имати одговарајуће фонтове који га (барем дјелимично) подржавају. Од фонтова доступних на Wиндоwс-у, Уникод сигурно подржавају Arial, Times New Roman, Helvetica, Verdana и Courier New, а такође су инсталирани на свим Wиндоwс платформама, тако да би генерално требало да се користи неки од тих фонтова. Фонтови типа TimesCirilica или YULTimes могу да прикажу наше знакове, али су далеко од Уникода и у преносу датотеке са једног на други рачунар у електронском облику постоји велика шанса да та датотека неће бити лепо читљива на другом рачунару, тако да би требало да се такви нестандардни фонтови избегавају колико год је то могуће.

На Линуксу и осталим UNIX-има се у самом називу фонта види да ли подржава Уникод или не, пошто последњи део назива фонта представља character set (скуп знакова) фонта. Ако ту пише iso10646, то значи да је фонт компатибилан са Уникодом. Међутим, и овде бих ради преносивости докумената, препоручио да се користе стандардни (Адобе-јеви) фонтови, као што су Times (-adobe-times-*-iso10646-1), Utopia (-adobe-utopia-*-iso10646-1), Helvetica (-adobe-helvetica-*-iso10646-1), Courier (-adobe-courier-*-iso10646-1).

Уникод, базе података и XML уреди

Свјетски трендови развоја база података иду ка увођењу Уникода, као стандардни начин записа података и XМЛ-а, као стандарни језик за пренос и презентацију тих података.

Већина база података већ дуже време подржава Уникод. Добар део апликација за рад са базама користе XML за презентовање и пренос података, зато што се показало да је XML једноставан језик за програмирање, за који већ постоји пуно рашчлањивача и зато што се показало да је XML довољно флексибилан да може да пренесе било какав тип података на сличан начин. Да би се програми међусобно „разумјели“, развијени су разни стандарди за опис података користећи XML (као што је, на примјер, Encoded Archival Description standard).

То увођење XML-а као главног језика за подршку базама података је још више учврстило позицију Уникода, пошто се XML датотеке стандардно пишу у УТФ-8 или УТФ-16. Занимљива је и та чињеница да је Мајкрософт, који се углавном противи свим стандардима и труди се да дефинише своје, прихватио XML и користи га гдје год може. Цела .NET технологија је заснована на XML-у. Због тога може да се очекује да ће у будућности бити само више XML-а и више Уникода и да је битно што раније се оријентисати ка њима.

Табела кодова за наша слова уреди

У табели 2 су излистани скоро сви знакови који се код нас (у Србији и на простору бивше Југославије) користе, са својим UCS-2 кодом, UTF-8 записом и са HTML окталним и децималним записима (за више информација погледајте поглавље 2).

Карактер	Изглед	УТФ-8	октална	децимална
Велика латинична слова
`У+0041`	А	`0x41`	`\101`	`A`
`У+0042`	Б	`0x42`	`\102`	`B`
`У+0043`	C	`0x43`	`\103`	`C`
`У+0044`	D	`0x44`	`\104`	`D`
`У+0045`	Е	`0x45`	`\105`	`E`
`У+0046`	Ф	`0x46`	`\106`	`F`
`У+0047`	Г	`0x47`	`\107`	`G`
`У+0048`	Х	`0x48`	`\110`	`H`
`У+0049`	I	`0x49`	`\111`	`I`
`У+004А`	Ј	`0x4А`	`\112`	`J`
`У+004Б`	К	`0x4Б`	`\113`	`K`
`У+004Ц`	L	`0x4Ц`	`\114`	`L`
`У+004Д`	M	`0x4Д`	`\115`	`M`
`У+004Е`	Н	`0x4Е`	`\116`	`N`
`У+004Ф`	О	`0x4Ф`	`\117`	`O`
`У+0050`	П	`0x50`	`\120`	`P`
`У+0051`	Q	`0x51`	`\121`	`Q`
`У+0052`	Р	`0x52`	`\122`	`R`
`У+0053`	С	`0x53`	`\123`	`S`
`У+0054`	Т	`0x54`	`\124`	`T`
`У+0055`	У	`0x55`	`\125`	`U`
`У+0056`	V	`0x56`	`\126`	`V`
`У+0057`	W	`0x57`	`\127`	`W`
`У+0058`	X	`0x58`	`\130`	`X`
`У+0059`	Y	`0x59`	`\131`	`Y`
`У+005А`	З	`0x5А`	`\132`	`Z`
Мала латинична слова
`У+0061`	а	`0x61`	`\141`	`a`
`У+0062`	б	`0x62`	`\142`	`b`
`У+0063`	ц	`0x63`	`\143`	`c`
`У+0064`	д	`0x64`	`\144`	`d`
`У+0065`	е	`0x65`	`\145`	`e`
`У+0066`	ф	`0x66`	`\146`	`e`
`У+0067`	г	`0x67`	`\147`	`g`
`У+0068`	х	`0x68`	`\150`	`h`
`У+0069`	и	`0x69`	`\151`	`i`
`У+006А`	ј	`0x6А`	`\152`	`j`
`У+006Б`	к	`0x6Б`	`\153`	`k`
`У+006Ц`	л	`0x6Ц`	`\154`	`l`
`У+006Д`	м	`0x6Д`	`\155`	`m`
`У+006Е`	н	`0x6Е`	`\156`	`n`
`У+006Ф`	о	`0x6Ф`	`\157`	`o`
`У+0070`	п	`0x70`	`\160`	`p`
`У+0071`	q	`0x71`	`\161`	`q`
`У+0072`	р	`0x72`	`\162`	`r`
`У+0073`	с	`0x73`	`\163`	`s`
`У+0074`	т	`0x74`	`\164`	`t`
`У+0075`	у	`0x75`	`\165`	`u`
`У+0076`	в	`0x76`	`\166`	`v`
`У+0077`	w	`0x77`	`\167`	`w`
`У+0078`	x	`0x78`	`\170`	`x`
`У+0079`	y	`0x79`	`\171`	`y`
`У+007А`	з	`0x7А`	`\172`	`z`
Наша додатна латинична слова
`У+0106`	Ћ	`0xЦ4 0x86`	`\304\206`	`Ć`
`У+0107`	ћ	`0xЦ4 0x87`	`\304\207`	`ć`
`У+010Ц`	Ч	`0xЦ4 0x8Ц`	`\304\214`	`Č`
`У+010Д`	ч	`0xЦ4 0x8Д`	`\304\215`	`č`
`У+0110`	Ђ	`0xЦ4 0x90`	`\304\220`	`Đ`
`У+0111`	ђ	`0xЦ4 0x91`	`\304\221`	`đ`
`У+0160`	Ш	`0xЦ5 0xА0`	`\305\240`	`Š`
`У+0161`	ш	`0xЦ5 0xА1`	`\305\241`	`š`
`У+017Д`	Ж	`0xЦ5 0xБД`	`\305\275`	`Ž`
`У+017Е`	ж	`0xЦ5 0xБЕ`	`\305\276`	`ž`
Велика ћирилична слова
`У+0402`	Ђ	`0xД0 0x82`	`\320\202`	`Ђ`
`У+0408`	Ј	`0xД0 0x88`	`\320\210`	`Ј`
`У+0409`	Љ	`0xД0 0x89`	`\320\211`	`Љ`
`У+040А`	Њ	`0xД0 0x8А`	`\320\212`	`Њ`
`У+040Б`	Ћ	`0xД0 0x8Б`	`\320\213`	`Ћ`
`У+040Ф`	Џ	`0xД0 0x8Ф`	`\320\217`	`Џ`
`У+0410`	А	`0xД0 0x90`	`\320\220`	`А`
`У+0411`	Б	`0xД0 0x91`	`\320\221`	`Б`
`У+0412`	В	`0xД0 0x92`	`\320\222`	`В`
`У+0413`	Г	`0xД0 0x93`	`\320\223`	`Г`
`У+0414`	Д	`0xД0 0x94`	`\320\224`	`Д`
`У+0415`	Е	`0xД0 0x95`	`\320\225`	`Е`
`У+0416`	Ж	`0xД0 0x96`	`\320\226`	`Ж`
`У+0417`	З	`0xД0 0x97`	`\320\227`	`З`
`У+0418`	И	`0xД0 0x98`	`\320\230`	`И`
`У+041А`	К	`0xД0 0x9А`	`\320\232`	`К`
`У+041Б`	Л	`0xД0 0x9Б`	`\320\233`	`Л`
`У+041Ц`	М	`0xД0 0x9Ц`	`\320\234`	`М`
`У+041Д`	Н	`0xД0 0x9Д`	`\320\235`	`Н`
`У+041Е`	О	`0xД0 0x9Е`	`\320\236`	`О`
`У+041Ф`	П	`0xД0 0x9Ф`	`\320\237`	`П`
`У+0420`	Р	`0xД0 0xА0`	`\320\240`	`Р`
`У+0421`	С	`0xД0 0xА1`	`\320\241`	`С`
`У+0422`	Т	`0xД0 0xА2`	`\320\242`	`Т`
`У+0423`	У	`0xД0 0xА3`	`\320\243`	`У`
`У+0424`	Ф	`0xД0 0xА4`	`\320\244`	`Ф`
`У+0425`	Х	`0xД0 0xА5`	`\320\245`	`Х`
`У+0426`	Ц	`0xД0 0xА6`	`\320\246`	`Ц`
`У+0427`	Ч	`0xД0 0xА7`	`\320\247`	`Ч`
`У+0428`	Ш	`0xД0 0xА8`	`\320\250`	`Ш`
Мала ћирилична слова
`У+0430`	а	`0xД0 0xБ0`	`\320\260`	`а`
`У+0431`	б	`0xД0 0xБ1`	`\320\261`	`б`
`У+0432`	в	`0xД0 0xБ2`	`\320\262`	`в`
`У+0433`	г	`0xД0 0xБ3`	`\320\263`	`г`
`У+0434`	д	`0xД0 0xБ4`	`\320\264`	`д`
`У+0435`	е	`0xД0 0xБ5`	`\320\265`	`е`
`У+0436`	ж	`0xД0 0xБ6`	`\320\266`	`ж`
`У+0437`	з	`0xД0 0xБ7`	`\320\267`	`з`
`У+0438`	и	`0xД0 0xБ8`	`\320\270`	`и`
`У+043А`	к	`0xД0 0xБА`	`\320\272`	`к`
`У+043Б`	л	`0xД0 0xББ`	`\320\273`	`л`
`У+043Ц`	м	`0xД0 0xБЦ`	`\320\274`	`м`
`У+043Д`	н	`0xД0 0xБД`	`\320\275`	`н`
`У+043Е`	о	`0xД0 0xБЕ`	`\320\276`	`о`
`У+043Ф`	п	`0xД0 0xБФ`	`\320\277`	`п`
`У+0440`	р	`0xД0 0xЦ0`	`\320\280`	`р`
`У+0441`	с	`0xД0 0xЦ1`	`\320\281`	`с`
`У+0442`	т	`0xД0 0xЦ2`	`\320\282`	`т`
`У+0443`	у	`0xД0 0xЦ3`	`\320\283`	`у`
`У+0444`	ф	`0xД0 0xЦ4`	`\320\284`	`ф`
`У+0445`	х	`0xД0 0xЦ5`	`\320\285`	`х`
`У+0446`	ц	`0xД0 0xЦ6`	`\320\286`	`ц`
`У+0447`	ч	`0xД0 0xЦ7`	`\320\287`	`ч`
`У+0448`	ш	`0xД0 0xЦ8`	`\320\290`	`ш`
`У+0452`	ђ	`0xД1 0x92`	`\321\222`	`ђ`
`У+0458`	ј	`0xД1 0x98`	`\321\230`	`ј`
`У+0459`	љ	`0xД1 0x99`	`\321\231`	`љ`
`У+045А`	њ	`0xД1 0x9А`	`\321\232`	`њ`
`У+045Б`	ћ	`0xД1 0x9Б`	`\321\233`	`ћ`
`У+045Ф`	џ	`0xД1 0x9Ф`	`\321\237`	`џ`

Проблеми са Уникодом уреди

Специфична руска (горе) и правилна српска/македонска (доле) слова. Ово је пример када системска, Уникод подршка није довољна, па су онда обавезне технологије као што је OpenType и софтвер који их има имплементиране.

У Уникоду српски и македонски језик, односно њихова ћириличка писма, нису тзв. „грађани првог реда”, као што се може видети на слици десно. При дизајну Уникода почетком 1990-их година, није узето у обзир да се ћириличка писма мање-више разликују у дизајну појединих слова. То се испољава у курзиву (искошено или полуписано), али, као што се види на слици, и са малим словом б у основном режиму. У руској верзији оно веома наликује броју 6, док у српској верзији то није случај, осим у изузетно малим величинама.

Због величине тржишта (Руска Федерација и околне земље из бившег Совјетског Савеза, као и Бугарска), већина фонтова која садрже ћирилицу, преферира руску ћирилицу на стандардним местима Уникода, односно руски дизајн графије, па српски и македонски језик највише трпе због овога. Иако су велика предузећа као што су Адоби системс (Adobe Systems) и Мајкрософт (Microsoft) упозната са овим проблемом, још увек се не зна да ли ће и када и ови језици постати „грађани првог реда” у систему Уникод.

У међувремену, решење може пружити технологија као што је Опентајп (OpenType, нарочито њено својство locl (locale)), софтвер који је подржава и модерни фонтови који садрже исправна српска/македонска слова. Добри примери су оперативни систем ГНУ/Линукс (GNU/Linux), канцеларијски пакет Либреофис (LibreOffice) под Линуксом и веб-читач Мозила Фајрфокс (Mozilla Firefox).

Ево примера за „привремено” решење у веб технологијама. У основној верзији:

бгдпт даје бгдпт
бгдпт даје бгдпт

а полуписано или искошено:

бгдпт даје бгдпт
бгдпт даје бгдпт.

Дакле, мора се користити атрибут lang="sr", и свака веб презентација на српском језику треба да има <html lang="sr"> или <html lang="sr-RS">. Аналогно овоме, и у XМЛ и сличним технологијама. Све друге ознаке, или неозначавање уопште, чини приказ српске ћирилице углавном неисправним. Такође, почевши од CSS-а 3, веб аутори могу да користе font-feature-settings: 'locl';.

Наравно, модерне породице фонтова као сто су GNU FreeFont, DejaVu, Liberation, Ubuntu или Мајкрософтови „C*” фонтови (Calibri, Cambria, Candara, Consolas, Constantia, Corbel) од Висте па на даље морају се користити (такође и Sitka од Windows-а 8.1). Од Адобија добри примери су Арно Про, Баскервилле Цyриллиц ЛТ Стд, Еxцелсиор ЛТ Стд, Гарамонд Премиер Про, Сава Про, Тимес Тен ЛТ Стд и Wарноцк Про. Важно је овде напоменути да и кад имају српска/македонска слова, неки фонтови не подржавају македонски језик само зато што им недостаје одређена Опентајп наредба за то, која мора да буде присутна у самом фонту. (Дакле, македонски језик је још више угрожен.)

Поред примера са словима б, г, д, п, т, руско велико полуписано Д идентично је латиничком слову D, што је такође неприхватљиво за српски и македонски језик, а помало се разликује и дизајн великих полуписаних слова Б и Н.

Добар пример како треба да се прати дизајн графије да би фонт био потпуно исправан за употребу у српском језику. Овакав дизајн потврђује и српска дизајнерска веб локација „Типометар”.

Напослетку, отежано је и уношење акцентованих ћириличких слова, а у постојећој бази знакова у Уникоду нема довољно унапред дефинисаних ћириличких за ову сврху.

Види још уреди

Библиографија уреди

Филип Брчић. Укратко о xмл-у, Јануар 2003. http://brcha.free.fr/documents/XMLtut/xmltut.pdf^{[мртва веза]}.
Тхе Уницоде Цонсортиум. Тхе Уницоде Стандард - Версион 3.0. Аддисон-Wеслеy, http://www.unicode.org, 2000.
Wорлд Wиде Wеб Цонсортиум. Еxтенсибле маркуп лангуаге (xмл) 1.1. Цандидате рецоммендатион, https://web.archive.org/web/20031224032806/http://www.w3c.org/TR/xml11/, 2002.
M. Давис D. Голдсмитх. Утф-7 - а маил-сафе трансформатион формат оф уницоде. Еxпериментал 1642, Интернет Енгинееринг Таск Форце, https://web.archive.org/web/20090816034224/http://www.ietf.org/rfc/rfc1642.txt, 1994.
M. Давис D. Голдсмитх. Утф-7 - а маил-сафе трансформатион формат оф уницоде. Информатионал 2152, Интернет Енгинееринг Таск Форце, https://web.archive.org/web/20090424211936/http://www.ietf.org/rfc/rfc2152.txt, 1997.
Улрицх Дреппер. МАНПАГЕ: Ицонв(3) 2.2.5 - Перформ цхарацтер сет цонверсион. Фрее Софтwаре Фоундатион, Инц., 2002.
Бојан Маринковић <мр99007@алас.матф.бг.ац.yу>. Енцодед арцхивал десцриптион доцумент тyпе дефинитион. 2003.
К. Мооре. Мултипурпосе интернет маил еxтенсионс (миме) парт тхрее: Мессаге хеадер еxтенсионс фор нон-асции теxт. Стандардс Трацк 2047, Интернет Енгинееринг Таск Форце, https://web.archive.org/web/20090403034557/http://www.ietf.org/rfc/rfc2047.txt, 1996.
Ј. Постел Н. Фреед, Ј. Кленсин. Мултипурпосе интернет маил еxтенсионс (миме) парт фоур: Регистратион процедурес. Стандардс Трацк 2048, Интернет Енгинееринг Таск Форце, https://web.archive.org/web/20090327075149/http://www.ietf.org/rfc/rfc2048.txt, 1996.
Н. Боренстеин Н. Фреед. Мултипурпосе интернет маил еxтенсионс (миме) парт фиве: Цонформанце цритериа анд еxамплес. Стандардс Трацк 2049, Интернет Енгинееринг Таск Форце, https://web.archive.org/web/20090513033429/http://www.ietf.org/rfc/rfc2049.txt, 1996.
Н. Боренстеин Н. Фреед. Мултипурпосе интернет маил еxтенсионс (миме) парт оне: Формат оф интернет мессаге бодиес. Стандардс Трацк 2045, Интернет Енгинееринг Таск Форце, https://web.archive.org/web/20090409233528/http://www.ietf.org/rfc/rfc2045.txt, 1996.
Н. Боренстеин Н. Фреед. Мултипурпосе интернет маил еxтенсионс (миме) парт тwо: Медиа тyпес. Стандардс Трацк 2046, Интернет Енгинееринг Таск Форце, https://web.archive.org/web/20100724211854/http://www.ietf.org/rfc/rfc2046.txt, 1996.
Ф. Yергеау П. Хоффман. Утф-16, ан енцодинг оф исо 10646. Информатионал 2781, Интернет Енгинееринг Таск Форце, https://web.archive.org/web/20090428074712/http://www.ietf.org/rfc/rfc2781.txt, 2000.
Ф. Yергеау. Утф-8, а тренсформатион формат оф уницоде анд исо 10646. Информатионал 2044, Интернет Енгинееринг Таск Форце, https://web.archive.org/web/20090419220823/http://www.ietf.org/rfc/rfc2044.txt, 1996.
Ф. Yергеау. Утф-8, а трансформатион формат оф исо 10646. Стандардс Трацк 2279, Интернет Енгинееринг Таск Форце, https://web.archive.org/web/20090327062821/http://www.ietf.org/rfc/rfc2279.txt, 1998.

Извори уреди

ДецодеУницоде - Уницоде WИКИ, 50.000 гифс

Спољашње везе уреди

Типометар — ћирилице на поклон