UTF-8

frá Wikipedia, ókeypis alfræðiorðabókinni
Fara í siglingar Fara í leit

UTF-8 (skammstöfun fyrir 8 bita UCS Transformation Format , þar sem UCS styttir síðan Universal Coded Character Set ) er mest notaða kóðunin fyrir Unicode stafi (Unicode og UCS eru nánast eins). Kóðunin var sett í september 1992 af Ken Thompson og Rob Pike meðan þeir unnu að Plan 9 stýrikerfinu . Það var upphaflega tilnefnt sem FSS-UTF sem hluti af X / Open ( skjalakerfi öruggt UTF öfugt við UTF-1 , sem hefur ekki þessa eign), á næstu árum, sem hluti af stöðlun, var það endurnefnt í nafnið UTF -8, sem er algengt í dag. [1]

UTF-8 er í samræmi við ASCII í fyrstu 128 stafunum (vísitölur 0–127) og hentar venjulega fyrir stafi á mörgum vestrænum tungumálum með aðeins eina bæti af minni, sérstaklega fyrir kóðun enskumála texta, sem getur því oftast notað án breytinga er hægt að breyta með non-UTF-8-hæfur ritstjórar texta án virðisrýrnunar, sem er ein af ástæðunum fyrir stöðu reynd staðall stafagerð á Netinu og tengdum skjal gerðum. Í mars 2019 voru 93,1% allra vefsíðna að nota UTF-8 [2] og 94,8% af bestu 1000. [3]

Á öðrum tungumálum er minniþörfin í bæti á staf stærri ef þessi eru frábrugðin ASCII stafasettinu: Jafnvel þýsku umlauts krefjast tveggja bæti, eins og grískir eða kyrillískir stafir. Stafir frá tungumálum í Austurlöndum fjær og frá tungumálum frá Afríku taka allt að 4 bæti á staf. Þar sem vinnsla UTF-8 sem margráða stafstrengur krefst meiri útreikningsvinnu og meira geymslurými fyrir tiltekin tungumál vegna nauðsynlegrar greiningar á hverri bæti samanborið við stafakóðun með föstum bæti á staf, eru aðrar UTF kóðanir einnig notað til að kortleggja Unicode, allt eftir atburðarás forritsins - stafasett notuð. Til dæmis notar Microsoft Windows UTF-16 Little Endian innbyrðis sem málamiðlun milli UTF-8 og UTF-32 .

Almennt

Með UTF-8 kóðun er hverjum Unicode staf úthlutað sérstaklega kóðuðum stafstreng af breytilegri lengd. UTF -8 styður stafstreng allt að fjögurra bæti að lengd, þar sem - eins og með öll UTF snið - er hægt að kortleggja alla Unicode stafi.

UTF-8 skiptir höfuðmáli sem alþjóðleg stafakóðun á Netinu. Verkefnisverkfræði Internet verkfræðinga krefst þess að allar nýjar samskiptareglur internetsins séu boðaðar yfir stafakóðun og að UTF-8 sé einn af stuðningskóðunum. Internet Mail Consortium (IMC) mælir með því að öll tölvupóstforrit birti og sendi UTF-8. [4]

Einnig með merkingarmálinu HTML sem notað er í vöfrum er UTF-8 í auknum mæli notað til að tákna tungumálasértæka stafi, í staðinn fyrir HTML-einingar sem áður voru notaðar. [5]

eignir

  • Multi-bæti stafakóðun ( MBCS ) svipuð CP950 / CP936 / CP932 (kínverska / japanska), en án þess (þá mikilvæga og gagnlega) eiginleika að tvíbreiddir stafir eru tveir bæti að lengd.
  • Margbita stafstrengir samanstanda aldrei af 7 bita ASCII stöfum (gerir vinnslu og greiningu kleift að nota algenga 7 bita staffasta).
  • Í samanburði við UTF-16, tiltölulega samningur með hátt hlutfall ASCII stafi, en meira plássfrekur fyrir stafi á milli U + 0800 og U + FFFF (aðallega asísk tungumál, sjá lista yfir Unicode kubba )
  • Flokkunargildi er haldið, tveir UTF-8 stafstrengir hafa sömu flokkunarröð og tveir ókóðaðir Unicode stafstrengir
  • Leitað í báðar áttir (ekki raunin með fyrri MBCS)
  • Einföld umritunaraðgerð (einnig auðvelt í framkvæmd í vélbúnaði)
  • Nóg af kóðunarforða (ef eitthvað breytist í Unicode staðlinum eftir allt saman)

stöðlun

UTF-8 er nú skilgreint á sama hátt af IETF , Unicode Consortium og ISO í stöðluðum skjölum:

  • RFC 3629 / STD 63 (2003)
  • Unicode staðallinn, útgáfa 4.0 , §3.9 - §3.10 (2003)
  • ISO / IEC 10646-1: 2000 viðauki D (2000)

Þetta kemur í stað eldri, að hluta til mismunandi skilgreininga sem eru að hluta til enn notaðar af eldri hugbúnaði:

  • ISO / IEC 10646-1: 1993 Breyting 2 / viðauki R (1996)
  • Unicode staðallinn, útgáfa 2.0 , viðauki A (1996)
  • RFC 2044 (1996)
  • RFC 2279 (1998)
  • Unicode staðallinn, útgáfa 3.0 , §2.3 (2000) og leiðrétting # 1: UTF-8 stysta form (2000)
  • Unicode staðall viðauki # 27: Unicode 3.1 (2001)

Kóðun

reiknirit

Unicode stafir með gildi á bilinu 0 til 127 (0 til 7F hexadecimal) eru sýndir í UTF-8 kóðun sem einn bæti með sama gildi. Þess vegna eru öll gögn sem aðeins raunveruleg ASCII stafir eru notuð fyrir eins í báðum framsetningunum.

Unicode stafir stærri en 127 eru kóðaðir í UTF-8 kóðun til að mynda bæti strengi sem eru tveir til fjórir á lengd.

Unicode svæði ( hexadecimal ) UTF-8 kóðun ( tvöfaldur , kerfi) Reiknirit / skýringar Fjöldi stafi sem hægt er að kóða
0000 0000 - 0000 007F 0xxxxxxx Á þessu svæði (128 stafir) samsvarar UTF-8 nákvæmlega ASCII kóðanum: Hæsti hluti er 0 , eftir er 7 bita samsetningin ASCII stafurinn. 2 7 128
0000 0080 - 0000 07FF 110xxxxx 10xxxxxx Fyrsti bæti byrjar alltaf með 11, eftirfarandi bæti með 10. Xxxxx stendur fyrir bita Unicode stafagildisins. Minnsti marktæki hluti stafgildisins er kortlagður til hægri x í síðasta bæti, þeim mun mikilvægari bitum smám saman frá hægri til vinstri . Fjöldi þeirra fyrir fyrstu 0 í fyrsta bæti er jafn heildarbætafjöldi stafsins. ( Til hægri, innan sviga, fræðilega hámarks fjöldi kóðanlegra stafi, sem þó má ekki nota að fullu vegna takmarkana í Unicode eða UTF-8 staðlinum.) 2 11 - 2 7
(2 11 )
1920
(2048)
0000 0800 - 0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx 2 16 - 2 11
(2 16 )
63.488
(65.536)
0001 0000 - 0010 FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 2 20
(2 21 )
1.048.576
(2.097.152)

Athugasemdir

Reikniritið gerir fræðilega ótakmarkaða bæti keðjur kleift. Upphaflega var röð fyrstu bæti með allt að 1111110x og þar með fimm röð bæti á forminu 10xxxxxx upphaflega skilgreind, þ.e. alls sex bæti með samtals 31 bita fyrir innihaldið Unicode. Í notkun þess sem UTF -kóðunar er það þó takmarkað við sameiginlegt kóða pláss allra Unicode kóðana, þ.e. frá 0 til 0010 FFFF (1.114.122 möguleikar) og hefur bæti keðju sem er að hámarki fjögur bæti að lengd. Laus gildissvið fyrir stafakóðann er að lokum ekki að fullu notað. Samsvarandi langar bæti raðir og stór gildi eru nú talin óleyfileg kóða og verður að meðhöndla í samræmi við það.

Fyrsti bæti UTF-8-kóðaðs stafs er kallaður upphafsbæti , frekari bæti eru kallaðir framhaldsbæti . Byrjunar bæti byrja alltaf með 0 eða 11, eftir bæti alltaf með 10.

  • Ef hæsti hluti fyrsta bæti er 0, þá er það ASCII stafur, þar sem ASCII er 7 bita kóðun og fyrstu 128 Unicode stafirnir samsvara ASCII stafunum. Þetta þýðir að allir ASCII stafstrengir eru sjálfkrafa samhæfðir upp á við UTF-8.
  • Ef hæsti hluti fyrsta bæti er 1, þá er hann margra bæti stafur, þ.e. Unicode stafur með stærri staf en 127.
  • Ef tveir hæstu bæti bæti eru 11, þá er það upphafsbæti margra bæti stafur; ef þeir eru 10, er það síðari bæti.
  • Orðabókin samkvæmt bæti gildum samsvarar orðröðinni samkvæmt stafatölum, þar sem hærri stafatölur eru kóðaðar með samsvarandi fleiri 1-bita í upphafsbæti.
  • Þegar um er að ræða upphafsbæti margra bita stafi, gefur fjöldi hæstu 1 bitanna til kynna heildarbætu Unicode stafsins sem er kóðaður sem fjölbita stafur. Túlkuð á annan hátt, fjöldi 1-bita til vinstri við hæsta 0-bita samsvarar fjölda síðari bæti plús einn, t.d. B. 1110xxxx 10xxxxxx 10xxxxxx = þrír bitar fyrir hæsta 0 bita = þrír bæti alls, tveir bitar eftir hæsta 1 bita fyrir hæsta 0 bita = tveir síðari bæti.
  • Byrja bæti (0… eða 11…) og síðari bæti (10…) má greinilega aðgreina hvert frá öðru. Þetta þýðir að bæti straumur er einnig hægt að lesa í miðjunni án vandræða við afkóðunina, sem er sérstaklega mikilvægt þegar gölluð gögn eru endurheimt. Bæti sem byrja á 10 er einfaldlega sleppt þar til 0… eða 11… er viðurkennt. Kosturinn við UTF-8 kóðun er að upphafsbæti og síðari bæti eru greinilega aðgreindir frá hvor öðrum. Ef um er að ræða kóðanir án þessarar eignar er ekki víst að hægt sé að lesa gagnastraum þar sem upphaf er óþekkt.

Athugið:

  • Fræðilega séð er hægt að kóða sama stafinn á mismunandi hátt (til dæmis „a“ sem 0 1100001 eða rangt sem 110 0000 1 10 100001 ). Hins vegar er aðeins stysta mögulega kóðun leyfð. Þessi staðreynd hefur nokkrum sinnum leitt til vandamála þar sem forrit hrundu ef kóðunin er ógild, túlkar þau sem gild eða einfaldlega hunsar þau. Samsetning síðustu tveggja hegðunarinnar leiddi m.a. B. að eldveggjum sem þekkja ekki hættulegt efni vegna ógildrar kóðunar, en viðskiptavinurinn sem á að vernda túlkar þessa kóðun sem gilda og er þar með í hættu.
  • Ef það eru nokkrir bæti fyrir staf þá eru bitarnir raðaðir - þannig að lægsti hluti ( minnsti marktæki hluti ) Unicode stafsins er alltaf í lægsta hluta síðasta UTF -8 bæti.
  • Upphaflega voru einnig kóðanir með fleiri en fjórum oktettum (allt að sex), en þetta hefur verið útilokað vegna þess að það eru engir samsvarandi stafir í Unicode og ISO 10646 hefur verið samhæft við Unicode á mögulegu stafasviði þess.
  • Fyrir allar leturgerðir byggðar á latneska stafrófinu er UTF-8 sérstaklega plásssparandi aðferð til að kortleggja Unicode stafi.
  • Unicode svæðin U + D800 til U + DBFF og U + DC00 til U + DFFF eru beinlínis ekki stafir, en eru aðeins notuð í UTF-16 til að umrita stafi fyrir utan grunn fjöltyngda flugvélina ; áður var vísað til þeirra sem lág og há staðgöngumæðrum . Þar af leiðandi eru bæti strengir sem samsvara þessum svæðum ekki gildir UTF-8. Til dæmis er U + 10400 táknað í UTF-16 sem D801, DC00, en í UTF-8 ætti það að koma fram sem F0.90.90.80 frekar en ED, A0.81, ED, B0.80. Java styður þetta síðan útgáfa 1.5. [6] Vegna útbreiddrar notkunar á rangri kóðun, sérstaklega í gagnagrunnum, var þessi kóðun síðan staðlaður sem CESU-8 .
  • Í UTF-8, UTF-16 og UTF-32 er allt gildissviðið kóðað í Unicode.
  • Ef ekki er hægt að túlka bæti röð sem UTF-8 stafi, er venjulega skipt út fyrir Unicode skipti stafinn U + FFFD eða EF, BF, BD þegar lesið er.

Leyfilegir bæti og merking þeirra

Vegna UTF-8 kóðunarreglunnar eru ákveðin bæti gildi ekki leyfð. Eftirfarandi tafla sýnir alla 256 möguleika og notkun þeirra og gildi. Bæti gildi í rauðum línum eru ekki leyfð, grænt lýsir leyfilegum bæti gildum sem tákna beint staf. Þessi gildi eru auðkennd með bláu sem byrjar upphaf röð tveggja eða fleiri bæti og er haldið áfram sem röð með bæti gildi frá línum merkt með appelsínugulum.

UTF-8 gildissvið merkingu
Tvöfaldur Hexadecimal Aukastaf
00000000-01111111 00-7F 0-127 Eitt bæti stafir, í samræmi við US-ASCII
10000000-10111111 80-BF 128-191 Annað, þriðja eða fjórða bæti bæti röð
11000000-11000001 C0-C1 192-193 Óheimilt er að byrja á 2 bæti röð sem kortar bilið frá 0 til 127
11000010-11011111 C2-DF 194-223 Upphaf tveggja bæti röð (U + 0080… U + 07FF)
Byrjaðu bæti þakið kóða svæði
C2 U + 0080… U + 00BF
C3 U + 00C0 ... U + 00FF
C4 U + 0100… U + 013F
C5 U + 0140… U + 017F
C6 U + 0180… U + 01BF
C7 U + 01C0 ... U + 01FF
C8 U + 0200… U + 023F
C9 U + 0240… U + 027F
CA U + 0280… U + 02BF
CB U + 02C0… U + 02FF
CC U + 0300… U + 033F
Geisladiskur U + 0340… U + 027F
CE U + 0380… U + 03BF
CF U + 03C0… U + 03FF
D0 U + 0400… U + 043F
D1 U + 0440… U + 047F
D2 U + 0480… U + 04BF
D3 U + 04C0… U + 04FF
D4 U + 0500… U + 053F
D5 U + 0540… U + 057F
D6 U + 0580… U + 05BF
D7 U + 05C0… U + 05FF
D8 U + 0600… U + 063F
D9 U + 0640… U + 067F
ÞAÐ U + 0680… U + 06BF
DB U + 06C0 ... U + 06FF
DC U + 0700… U + 073F
DD U + 0740… U + 077F
DE U + 0780… U + 07BF
DF U + 07C0… U + 07FF
11100000-11101111 E0-EF 224-239 Byrjun á 3 bæti röð (U + 0800 ... U + FFFF)
Byrjaðu bæti þakið kóða svæði athugasemd
E0 U + 0800… U + 0FFF 2. bæti:
80… 9F óleyfileg kóðun fyrir U + 0000… U + 07FF
A0… BF U + 0800… U + 0FFF
E1 U + 1000… U + 1FFF
E2 U + 2000… U + 2FFF
E3 U + 3000… U + 3FFF
E4 U + 4000… U + 4FFF
E5 U + 5000… U + 5FFF
E6 U + 6000… U + 6FFF
E7 U + 7000… U + 7FFF
E8 U + 8000… U + 8FFF
E9 U + 9000… U + 9FFF
EA U + A000… U + AFFF
EB U + B000… U + BFFF
EB U + C000… U + CFFF
ED U + D000… U + DFFF 2. bæti:
80… 9F U + D000… U + D7FF
A0… BF óviðunandi! Sjá CESU-8
EE U + E000… U + EFFF ( Svæði fyrir einkanotkun )
EF U + F000… U + FFFF (Sérnotkunarsvæði, ef 2. bæti er á bilinu 80 ... A3)
11110000-11110100 F0-F4 240-244 Byrjun á 4 bæti langri röð (þ.mt ógild 13FFFF frá 110000 til 13FFFF )
Byrjaðu bæti þakið kóða svæði
F0 U + 10000 ... U + 3FFFF (2. bæti verður að vera frá svæði 90 ... BF, þar sem B0 ... BF samsvarar stigi 3 sem hefur ekki verið notað hingað til)
F1 U + 40000 ... U + 7FFFF (sem stendur engir gildir stafir á þessu svæði)
F2 U + 80000 ... U + BFFFF (sem stendur engir gildir stafir á þessu svæði)
F3 U + C0000… U + FFFFF
F4 U + 100000 ... U + 10FFFF (2. bæti verður að vera á bilinu 80 ... 8F!)
11110101-11110111 F5-F7 245-247 Ógilt samkvæmt RFC 3629 : Byrjun á 4 bæti röð fyrir kóða svið yfir 140000
11111000-11111011 F8-FB 248-251 Ógilt samkvæmt RFC 3629 : Byrjun á 5 bæti langri röð
11111100-11111101 FC-FD 252-253 Ógilt samkvæmt RFC 3629 : Byrjun á 6 bæti langri röð
11111110-11111111 FE-FF 254-255 Ógilt. Ekki skilgreint í upprunalegu UTF-8 forskriftinni.
kóða … 0 … 1 … 2 … 3 … 4 … 5 … 6 … 7 ... 8 … 9 … A. … B ... C … D … E ... F
0… NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SVO SI
1… DLE DC1 DC2 DC3 DC4 NAK SYN ETB DÓS EM SUB ESC FS GS RS BNA
2… SP ! " # $ % & ' ( ) * + , - . /
3… 0 1 2 3 4. 5 6. 7. 8. 9 : ; < = > ?
4… @ A. B. C. D. E. F. G H I. J K L. M. N O
5… P. Sp R. S. T U V W. X Y Z [ \ ] ^ _
6… ` a b c d e f G H ég j k l m n O
7 ... bls q r s t u v w x y z { | } ~ DEL
8.… Annað, þriðja eða fjórða bæti bæti röð
9 ...
A ...
B ...
C ... Byrjun á 2 bæti langri röð
D ...
E ... Byrjun á 3 bæti langri röð
F ... Byrjun á 4 bæti langri röð
… 0 … 1 … 2 … 3 … 4 … 5 … 6 … 7 ... 8 … 9 … A. … B ... C … D … E ... F

Dæmi

Nokkur kóðunardæmi fyrir UTF-8 eru gefin í eftirfarandi töflu:

Dæmi um UTF-8 kóðun
persóna Unicode Unicode tvöfaldur UTF-8 tvöfaldur UTF-8 hexadecimal
Bréf y U + 0079 00000000 0 1111001 0 1111001 79
Stafur a U + 00E4 00000 000 11 100 100 110 00011 10 100 100 C3 A4
Skráðu þig fyrir skráð vörumerki ® U + 00AE 00000 000 10 101110 110 00010 10 101110 C2 AE
Evruskilti U + 20AC 0010 0000 10 101100 1110 0010 10 000010 10 101100 E2 82 AC
Treble clef 𝄞 U + 1D11E 000 000 01 1101 0001 00 011110 11110 000 10 011101 10 000 100 10 011110 F0 9D 84 9E

Síðasta dæmið liggur utan kóðasvæðisins (16 bita) sem upphaflega var að finna í Unicode (undir útgáfu 2.0), sem er í núverandi Unicode útgáfu sem BMP svæði (stig 0) . Þar sem margar leturgerðir innihalda ekki þessar nýju Unicode svæði eins og er, er ekki hægt að birta stafina þar rétt á mörgum kerfum. Þess í stað er sýndur nýr stafur sem gegnir hlutverki staðsetningar.

Fulltrúi í ritstjórum

Bæti pöntunarmerki

Þrátt fyrir að UTF-8 vegna tegundar kóðunarreglunnar geti ekki komið upp vandamál með mismunandi bæti pantanir, bæta sum forrit við bæti pöntunarmerki (BOM, þýskt bæti röð) í upphafi skrárinnar frá UTF-8 skrám. Uppskriftin samanstendur af bæti röð EF BB BF , sem venjulega birtist í ritstjórum og vöfrum sem ekki eru UTF-8 færir sem ISO-8859-1 stafaröð ï »¿og getur verið ábyrgur fyrir eindrægnisvandamálum.

Stafir sem ekki eru í Basic Latin Unicode reitnum

Stafirnir í latneska grunn stafrófinu og mikilvægustu greinarmerkin eru sýnd á sama hátt í UTF-8 og ISO-8859- * . Vandamál með rangt valið stafakóðun eiga sér stað með hinum stafunum, til dæmis umlauts . Í þýskum textum birtast þessar persónur þó aðeins af og til þannig að textinn virðist vera brenglaður en helst læsilegur.

Í UTF-8, umlauts þýska stafrófsins (að því tilskildu að þeir séu í venjulegu formi NFC , þ.e. sem fyrirfram samsettir stafir ) og ß samanstanda af tveimur bæti; Samkvæmt ISO 8859 er hver stafur kóðaður sem 1 bæti og hver bæti umbreyttur í staf þegar hann er lesinn. Fyrsti bæti C3 hex , sem er algengur í UTF-8 kóðun þessara bókstafa, er afkóðaður á annan hátt, eins og sést á töflunni, eins og annar bæti kóðunarinnar frá äöü, en með ÄÖÜß er annar bæti ekki eða með sömu villu Stafir eru sýndir vegna þess að 7F hex til 9F hex eru ekki skilgreindir í ISO 8859, sem gerir textann erfiðari að lesa.

Þegar túlkaður er texti sem er kóðaður í ISO-8859 sem UTF-8 leiða stafirnir öü til að birta staf til að skipta út því samsvarandi bæti gildi, eins og sýnt er í töflunni hér að neðan, er ekki skilgreint. Gert er ráð fyrir upphafsbæti fyrir stafina äöüß og reynt er að túlka næsta bæti sem eftirfarandi bæti saman sem einn staf. Auðvitað mistekst þetta oft vegna þess að kóðun flestra bókstafanna er ekki gild síðari bæti. Þegar um er að ræða er jafnvel reynt að túlka næstu tvo bæti sem síðari bæti, sem mistekst reglulega af sömu ástæðum. Það fer eftir forritun sýningarforritsins og samsvarandi fjöldi bókstafa getur horfið úr textanum.

UTF-8 texti opnaður með annarri kóðun:
UTF-8 ISO-8859-1 ISO-8859-15 UTF16
U + 00E4 C3A4 hex Ä Ä Ã €
U + 00F6 C3B6 hex ö ö ö
U + 00FC C3BC hex ü ü ÃŒ
U + 00DF C39F hex ß Ã ?? Ã ??
U + 00C4 C384 hex Ä Ã ?? Ã ??
U + 00D6 C396 hex Ö Ã ?? Ã ??
U + 00DC C39C hex Ü Ã ?? Ã
ISO latína 1 2 3 4. 5 6. 7. 8. 9 10 UTF-8
ISO / IEC 8859- 1 2 3 4. 9 10 13 14. 15. 16
1010 0100 244 164 A4 ¤ ¤ Ī ¤ Ċ Næsta bæti +24
1011 0110 266 182 B6 ś H ļ ķ Næsta bæti +36
1011 1100 274 188 F.Kr. ¼ ź ĵ ŧ ¼ ž ¼ Œ Næsta bæti + 3C
1100 0011 303 195 C3 Ã Ă Ã Ć Ã Ă Byrjaðu bæti Latína 0080
1100 0100 304 196 C4 Ä Byrjaðu bæti Latína 00C0
1101 0110 326 214 D6 Ö Byrjaðu bæti Hebreska 0580
1101 1100 334 220 DC Ü Byrjaðu bæti Sýrlendingur 0700
1101 1111 337 223 DF ß Byrjaðu bæti N'Ko 07C0
1110 0100 344 228 E4 Ä Byrjaðu bæti Kana 3000
1111 0110 366 246 F6 ö ótækt
1111 1100 374 252 FC ü ótækt
Am Okt. Des Hex ISO-latína-ISO / IEC 8859- UTF-8

Dæmi um orðið hæð :

UTF-8 texti í ISO-8859-1 / 9 / 13-16 umhverfi
Hæðhæð . ; ISO-8859-1 texti í UTF-8 umhverfi
Hæð Hhann eða villuboð með fóstureyðingu. Bæti með sextölustigi F6 er ekki leyfilegt í UTF-8. Það er algeng venja að setja inn stafinn (U + FFFD) fyrir stafi sem ekki er hægt að breyta.

Vefsíðutenglar

Wiktionary: UTF -8 - skýringar á merkingum, uppruna orða, samheiti, þýðingar

Einstök sönnunargögn

  1. RFC 3629 UTF-8, umbreytingarform ISO 10646. Kafli 1 (inngangur), enska.
  2. Söguleg þróun í notkun stafakóða fyrir vefsíður. Í: W3Techs. Q-Success, opnaður 5. mars 2019 .
  3. Notkun stafakóðana skipt niður eftir röðun. Í: W3Techs. Q-Success, opnaður 7. mars 2019 .
  4. Notkun alþjóðlegra persóna í netpósti . ( Minnisblað 26. október 2007 í Internetskjalasafninu ) Internet Mail Consortium, 1. ágúst 1998, opnaði 12. júlí 2012.
  5. Notkun stafakóða fyrir vefsíður. Í: W3Techs. Q-Success, opnað 12. júlí 2012 (enska, 14. mars 2012).
  6. Norbert Lindenberg, Masayoshi Okutsu: viðbótarpersónur í Java pallinum. Í: vefsíðu Oracle. Sun Microsystems, maí 2004, opnaði 9. júní 2019 .