UTF-8 — разлика између измена

Садржај обрисан Садржај додат
м додана категорија Кодирање помоћу геџета HotCat
Придев оптималан нема степене поређења, јер ако је нешто оптимално онда нема оптималнијег и најоптималнијег!
Ред 15:
Прво је развијена Unicode трансформациона шема са основном јединицом од 8 бита ([[UTF]]-8). Помоћу ње се карактер записује у једном, два или три бајта, у зависности од тога о ком је карактеру реч. Ова трансформациона шема је превасходно згодна за употребу у језицима који користе латиницу. О UTF-8 ће бити више речи у поглављу ''[[UTF-8#.D0.A3.D0.BA.D1.80.D0.B0.D1.82.D0.BA.D0.BE_.D0.BE_UTF-8|Укратко о UTF-8]]''.
 
Један део [[MTA|Mail Transfer Agent]]-а, као и званични стандард за Интернет пошту (IETF: [[STD 11]], [[RFC 822]]) подржава само 7-битне маил поруке. [[MIME]] стандарди ([[RFC 2045]], [[RFC 2046]], [[RFC 2047]], [[RFC 2048]] и [[RFC 2049]]) омогућавају пренос вишебитних речи преко Интернет маил-а, користећи [[Base64]] и [[Quoted Printable]] начине кодирања, међутим, они нису прављени за пренос Unicode-а него за пренос било каквих фајлова и нису били најоптималнијаоптимална решења. Због тога је касније развијена 7-битна трансформациона шема UTF-7. Ту се карактер записује у једном или у неколико бајтова, слично као и у UTF-8. Основна разлика је у томе што UTF-7 користи само Base64 карактере који без проблема могу да се преносе путем електронске поште. За такву намену се показало да је UTF-7 оптималнији запис него UTF-8 када се кодира са Base64 или са Quoted Printable алгоритмима кодирања.
 
Постоји и новији Unicode стандард под називом UCS-4 који користи 4 бајта за запис 2<sup>31</sup> = 2147483648 карактера подељених у тзв. равни. Прва два бајта дефинишу раван, тако да има 2<sup>15</sup> = 32768 равни. Друга два бајта дефинишу карактер унутар равни, тако да има 2<sup>16</sup> = 65536 карактера по равни. Тај новији формат је више направљен као план за будућност него као реална опција, пошто још увек ни један карактер није алоциран у новодобијени простор, односно сви за сада дефинисани карактери (цео UCS-2) се налазе у равни 0 или основној вишејезичкој равни (Basic Multilingual Plane, BMP). Међутим, пошто је UCS-4 нови стандард за Unicode, треба и њега имати у виду. Да би се UCS-4 транспарентно увео у употребу редефинисани су формати записа UTF-7, UTF-8, UTF-16 и UTF-32. То је учињено тако да сваки карактер из UCS-2 има исту репрезентацију у UTF-7 и UTF-8 као и раније. UTF-16 је у неку руку синоним за UCS-2 и садржи више од два бајта само у случају да се кодира неки карактер ван "Основне језичке равни" (BMP), који за сада не постоје. За више информација, погледајте табелу ''Шема кодирања UCS-4 у UTF-8''. UTF-32 је у ствари начин записа UCS-4 у коме се користе сва четири бајта. Због тога што виши и нижи бајт (или два бајта) могу да се запишу у меморију на два начина, постоје још по две подваријанте UTF-16 и UTF-32 које се разликују по редоследу бајтова. То су UTF-16BE ([[big endian]]) и UTF-16LE ([[little endian]]) и UTF-32BE и UTF-32LE. Ово није уведено да би се увела додатна забуна и збрка, него зато што различите архитектуре рачунара различито чувају податке.
Ред 31:
У UTF-8 се карактер записује у облику једног бајта ако у свом запису садржи само најнижих 7 бита, односно, ако је реч о ASCII карактеру (види поглавље ''Развој електронског записа текста''). Уколико карактер у свом Unicode запису садржи само најнижих 11 бита, у UTF-8 се записује у облику два бајта. И на крају, ако карактер садржи свих 16 бита, записује се у облику три бајта. У табели 1 је дата шема како се UCS-4 трансформише у UTF-8. Табела је дата за пун, четворобајтни Unicode, а ако је реч о двобајтном Unicode-у, тј. о UCS-2, треба гледати само прва три реда у табели. Детаљнији опис алгоритма за трансформацију може се наћи у [[RFC 2279]].
 
UTF-8 није најоптималнијиоптималан начин записа за кинески и јапански текст јер уместо да се користе два бајта по карактеру, за такав текст би било коришћено чак три бајта по карактеру, али то и није толико важно за нас. За ћирилични текст је, са друге стране, све једно да ли се користи чисти UNICODE или UTF-8, пошто се сваки ћирилични карактер записује у облику два бајта и у једном и у другом формату. За нас је ипак оптималнији UTF-8 јер постоји могућност писања и ћирилицом и латиницом, па ако у ћирилици већ не може да се избегне употреба два бајта, у латиници се скоро сви карактери записују само са једним бајтом (осим šđčćž).
 
 
Преузето из „https://sr.wikipedia.org/wiki/UTF-8