Korvaava hahmo | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
� | ||||||||||||
Kuva
|
||||||||||||
|
||||||||||||
Ominaisuudet | ||||||||||||
Nimi | korvaava hahmo | |||||||||||
Unicode | U+FFFD | |||||||||||
HTML-koodi | � tai � | |||||||||||
UTF-16 | 0xFFFD | |||||||||||
URL-koodi | %EF%BF%BD |
Korvausmerkki � on tietojenkäsittelytieteen merkki, jota käytetään, kun merkin merkitystä ei tunneta tai sitä ei voida ilmaista Unicodessa .
Tämä hahmo on kohdassa U+FFFD [1] Erikoismerkit - ryhmässä. Se on monikielisen perustason viimeinen merkki (seuraavat paikat U+FFFE ja U+FFFF eivät ole merkkien varassa, vaan niitä käytetään virheraportointiin) [2] .
Tämä symboli näyttää mustalta timantilta, jonka sisään on kaiverrettu kysymysmerkki . Se muistuttaa kuvamerkkiä , jossa on kysymysmerkki, ja se tarkoittaa tuntematonta, epävarmuutta. Quivira-fontin reunojen ympärillä on musta reunus, joka on erotettu timantista. Tämä tekee symbolista vieläkin enemmän kuvamerkin kaltaisen.
Merkkiä käytetään, kun näytetään tekstit, jotka on muunnettu muista koodauksista Unicode-muotoon, osoittamaan, että lähdetekstin merkillä ei ole Unicode-vastinetta [2] . Tämä voi johtua väärästä merkkikoodausasetuksesta.
Oletetaan, että meillä on tekstitiedosto, joka sisältää saksankielisen sanan fürISO 8859-1 -koodauksessa. Tämä tekstitiedosto lähetettiin Internetin kautta käyttäjälle, jonka oletuskoodaus on UTF-8. Ensimmäinen tavu ( 0x66) on välillä 0x00-0x7F, UTF-8 tekee sen oikein muodossa "f". Toinen tavu ( 0xFC) ei ole kelvollinen arvo minkään merkin alussa UTF-8:ssa, joten selain näyttää korvaavan merkin tämän tavun tilalla varoittaakseen käyttäjää, että jokin meni pieleen. Kolmas tavu ( 0x72) on myös 0x00-0x7F:n sisällä, UTF-8 tekee sen oikein muodossa "r". Ja koko sana näytetään muodossa f�r.
Tekstieditori voi näyttää korvaavan merkin UTF-8:ssa, ja kun lähetät tiedoston takaisin ISO 8859-1 -standardiin, tämä merkki korvataan epäjohdonmukaisella kolmen merkin yhdistelmällä: . Tämä johtuu siitä, että UTF-8-korvausmerkki on . 0xEF - ï, 0xBF - ¿, 0xBD - ½ ja yhdessä - �. f�r0xEF 0xBF 0xBD
Java - ohjelmointikielessä U+FFFD-asemaa käytetään perinteisesti merkitsemään NaN , joka ei vastaa Unicode-arvoa [2] .