UTF-8 Hrvatska kodna stranica |
UTF-8 je standard za kodiranje znakova koji se koristi za elektroničku komunikaciju. Definiran je prema Unicode standardu, a naziv je izveden iz Unicode Transformation Format - 8-bit. Gotovo svaka web-stranica pohranjena je u UTF-8 kodu. UTF-8 može kodirati svih 1'112'064 važećih Unicode skalarnih vrijednosti koristeći kodiranje varijabilne širine od jedne do četiri jednobajtne (8-bitne) kodne jedinice. Kodne točke s nižim numeričkim vrijednostima, koje se češće pojavljuju, kodirane su korištenjem manje bajtova. Dizajniran je za povratnu kompatibilnost s ASCII kodom. Prvih 128 kodnih točaka (ASCII) treba 1 bajt. Sljedećih 1'920 kodnih točaka trebaju dva bajta za kodiranje, što pokriva ostatak gotovo svih abeceda latiničnog pisma, tri bajta potrebna su za preostalih 61'440 kodnih točaka azijskih i čiriličnih znakova. Četiri bajta potrebna su za 1'048'576 kodnih točaka koje uključuju piktografske simbole. U daljnjem opisu uzeti će se u obzir samo latinično pismo, te je nadalje uzet primjer za Hrvatsku i United States. Dakle, posebni znakovi koji definira drugi bajt prema prethodnom opisu UTF-8 koda. UTF-8 kod koristi se kod većine web-sjedišta, a ovisno o znaku kojeg treba prezentirati automatski se mjenja broj bajt-ova koji će se uporabiti.
Dijakritički znakovi su znakovi različitog oblika - točke, crtice, kvačice, kružići i slično. Dodaju se nekom slovu (s bilo koje strane) u svrhu davanje posebne glasovne oznake slova ili riječi. Takva slova nazivaju se dijakritici ili dijakritička slova. U hrvatskom jeziku dijakritički znakovi u abecedi - su č, ć, đ, š i ž, a dijakritici su č, ć, đ, dž, š i ž (sastavljeni od dijaktritičkih znakova).
Ako se uzmu u obzir velika i mala slova, te se izuzme dvoznak ' dž ', onda je taj skup grafema prema slijedećem:
Č, Ć, Đ, Š, Ž - č, ć, đ, š, ž
Kad se pogleda tekst za hrvatski i engleski sadržaj na ovoj stranici, hrvatski dijakritici vide se jednako na obje stranice, iako je jedna definirana za hrvatski jezik a druga za engleski. Dakle, u pitanju je analiza drugog bajta. Obje stranice kreirane su s programskom potporom 'Dreamweaver'.
Ako se pogleda zapis ovih HTML datoteka u nekom HEX-Editoru dobiju se rezultati kao na narednim slikama.
|
Slika 1. Kodovi za Hrvatske grafeme prema kodnoj stranici 'windows-1250' i 'utf-8'. |
Te prema navedenom vrijedi:
windows-1250 utf-8 ================== ================== Č = C8 = 200 Č = C48C = 268 Ć = C6 = 198 Ć = C486 = 262 Đ = D0 = 208 Đ = C490 = 272 Š = 8A = 138 Š = C5A0 = 352 Ž = 8E = 142 Ž = C5BD = 381 č = E8 = 232 č = C48D = 269 ć = E6 = 230 ć = C487 = 263 đ = F0 = 240 đ = C491 = 273 š = 9A = 154 š = C5A1 = 353 ž = 9E = 158 ž = C5BE = 382
Prva kodna skupina odgovara prilogu e.), kao 'Latin 2'. Druga kodna skupina odgovara prilogu g.), kao 'Latin Extended-A'. Kompletan skup karaktera za UTF-8 kod možete pronači na adresi https://www.fileformat.info/info/charset/UTF-8/list.htm.
Windows OS nativno koristi 'windows-1250' (u biti Latin 2) kodnu stranicu, a programska potpora za uređivanje web-stranica (npr. 'Dreamweaver') mora znati kako izvršiti promijenu u 'UTF-8' kodnu stranicu. Znaći, promijenu treba izvršiti koristeći izbornik za promijenu parametara stranice, te će se automatski promijeniti kodovi grafema. Ako se uporabi uređivač stranica koji ne zna napraviti navedenu promijenu, rezultat će biti nevaljali: �, �, �, �, � - �, �, �, �, �.
Na računalo autora instaliran je 'Windows 10 Enterprise 2016 LTSB - x86' operativni sustav. Ako se u Web pregledniku 'Edge' čitaju ove stranice, te se kopira paragraf s diaklitičkim znakovima u 'Notepad' i spremi kao neka .txt datoteka, navedeni znakovi korektno se prikazuju. Ako se pak nakon navedene radnje is tekstualne datoteke, kopira sadržaj u novo otvorenu datoteku u 'Dreamweaver' i spremi kao .html datoteka, navedeni diaklitički znakovi i dalje se uredno prikazuju. Za 'običnog' korisnika nikava promijena nije vidljiva. No, ako se s heksadekadnim editorom, npr 'HxD Hex Editor' pročitaju obje spremljene datoteke vidi se da je .txt datoteka kodirana u 'Latin 2' kodnoj stranici, a .html datoteka u 'UTF-8' kodnoj stranici, što znači da OS i programska potpora 'Dreamweaver' brinu o tome da se ova pretvorba kodova uredno odvija. Naravno, 'Dreamweaver' mora biti podešen tako da mu je podrazumna stranica podešena za unikod. Dakle, nema nikakve brige glede navedenog, što nije bi slučaj prije dva desetljeća, točnije do 1991 godine, kada je ustanovljen 'Unicode Standard' od strane udruženja 'The Unicode Consortium' koje brine o nadopunama koda svakodnevno. Gotovo sve informatičke branše poštuju ovaj standard. Da nema opisanog, autor ovih redaka ne bi mogao napisati ovu priču.
Citiranje ove stranice: Radić, Drago. " Informatička abeceda " Split-Hrvatska. {Datum pristupa}; https://informatika.buzdo.com/pojmovi/datoteka. Copyright © by Drago Radić. Sva prava pridržana. | Odgovornost |