Tekstitiedosto

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 28.5.2022 tarkistetusta versiosta . tarkastukset vaativat 5 muokkausta .
Tekstitiedosto
MIME-tyyppi tekstiä / tavallista
Vastapäätä binääritiedosto ja grafiikkatiedosto
Tiedostopääte .txttai.text
 Mediatiedostot Wikimedia Commonsissa

Tekstitiedosto  on tietokonetiedosto , joka sisältää tekstidataa . Tekstitiedostot vastustavat binääritiedostoja , jotka sisältävät dataa, jota ei ole suunniteltu tulkittavaksi tekstiksi (esimerkiksi tiedostot, jotka tallentavat tekstiä koodatussa tai pakatussa muodossa tai jotka eivät tallenna tekstiä, vaan ääntä, kuvaa tai muuta tiedot).

Toisin kuin termi "tekstidata" (tekstidatamuoto), joka kuvaa tiedon sisältöä, termi "tekstitiedosto" viittaa tiedostoon ja luonnehtii sitä säiliöksi, joka tallentaa tällaisia ​​tietoja.

Kuvaus

Tekstitiedosto sisältää merkkijonon (useimmiten tulostettuja merkkejä , jotka kuuluvat yhteen tai toiseen merkistöyn ). Nämä merkit on yleensä ryhmitelty riveihin ( englanniksi  rivit, rivit ). Nykyaikaisissa järjestelmissä rivit erotetaan rivierottimella , kun taas aiemmin merkkijonot tallennettiin vakio- tai vaihtelevan pituisina tietueina (katso: Rei'itetty kortti ). Joskus tekstitiedoston loppuun (varsinkin jos tiedostojärjestelmä ei tallenna tietoja tiedoston koosta) on myös merkitty yksi tai useampi erikoismerkki, joka tunnetaan nimellä tiedoston loppumerkit .

Edut ja haitat

Edut:

Virheet:

Tekstitiedostoihin perustuvat muodot

Tekstitiedostoja käytetään yksinkertaisuutensa vuoksi usein palvelutietojen (esimerkiksi lokien ) tallentamiseen: koska uuden tiedon lisääminen tekstitiedoston loppuun ei vaadi merkittäviä laskentaresursseja, riippumatta jo käytettävissä olevan tiedoston koosta. ja lisättävän tekstitiedon tyyppi, tekstilokitiedostojen ylläpito tapahtuu yleensä tehokkaasti ja huomaamattomasti käyttäjän ja muiden sovellusten kannalta (levytilan loppuun asti).

Tekstimuoto toimii perustana monille erikoistuneemmille muodoille (esim . .ini , SGML , HTML , XML , TeX , ohjelmointikielen lähdekoodi ). Joissakin näistä muodoista tiettyjä merkkiyhdistelmiä voidaan käyttää tekstimerkintöinä. Tässä tapauksessa tiedosto voi tallentaa muotoiltua tekstiä, jossa kirjasin, tyyli, koko jne. voidaan lisäksi määrittää merkeille (esim. Rich Text Format , HTML ).

Tiedostonimien päätteet

DOS- , macOS- ja Windows -käyttöjärjestelmissä pelkät tekstitiedostot käyttävät yleensä .txt - tunnistetta . Tekstitiedostot voivat kuitenkin olla millä tahansa muulla tunnisteella tai ilman. Esimerkiksi ohjelmien lähdekoodit tallennetaan yleensä tiedostoihin, joiden tunniste vastaa sitä ohjelmointikieltä , jolla ohjelmat on kirjoitettu ( .java , .bas , .pas , .c ).

Muotoiltu teksti (teksti merkinnöillä) tallennetaan yleensä tiedostoihin, joiden tunniste vastaa muotoa tai merkintäkieltä  - .rtf , .htm , .html .

Koodaukset

8-bittinen teksti

Historiallisesti 7- bittistä ASCII - merkistöä sekä 8-bittistä EBCDIC :tä ja erilaisia ​​ASCII-laajennuksia on käytetty tekstitiedostojen koodaamiseen . 8-bittisillä koodisivuilla on yleistä käyttää ASCII:ta vastaavia merkkejä kooditaulukon ensimmäisessä puoliskossa.

8-bittisen tekstin esityksen etuna on ohjelmallinen yksinkertaisuus ja riippumattomuus tavujärjestyksestä tai koneen sanan pituusongelmista . Haittapuolena on suuri määrä erilaisia ​​standardeja, mikä voi johtaa yhteensopimattomuuteen.

Unicode tekstitiedostoissa

Unicoden käyttö tekstitiedostoissa, vaikka se pohjimmiltaan ratkaisee "koodausongelman" ja standardoi ohjausmerkkien käytön, luo omat ongelmansa. Useimmissa nykyaikaisissa järjestelmissä tietovirran jakamaton yksikkö on tavu (8 bittiä) , joka vaatii useita yhden merkin koodaamiseen Unicodesta. Ratkaisu on käyttää yhteensopimattomia UTF-8- järjestelmiä ja kahta UTF-16- versiota (UTF-16LE ja UTF-16BE vastakkaisella endianilla ) . Joskus tiedoston alkuun lisätään erikoismerkki (U+FEFF [1] ), joka mahdollistaa muodon yksiselitteisen tunnistamisen. UTF-8:lla on se etu, että se on taaksepäin yhteensopiva ASCII:n kanssa, mutta UTF-8:n ohjelmoitua tekstinkäsittelyä vaikeuttaa muuttuva merkkikoko. Lisäksi Unicode-tekstit ovat jopa ylimääräisempiä kuin 8-bittiset.

Ohjausmerkit

Eri käyttöjärjestelmillä on oma tapansa esittää rivinvaihtoja ja tiedoston loppua. UNIXissa rivinvaihto koostuu yhdestä LF-merkistä (koodi 0xA), Mac OS :ssä (mutta ei macOS :ssä) se koostuu CR-merkistä (koodi 0xD), ja DOSissa ja Windowsissa rivinvaihto on koodattu sekvenssinä. kaksi merkkiä: CR ja LF.

Tämän eron sanelevat kirjoituskoneiden toimintaperiaatteet: siirtyäksesi uudelle riville, sinun on palautettava vaunu rivin alkuun ( vaunun paluu ) ja käännettävä sitten rumpua yksi rivi ( rivinsyöttö ). Tulostimella tulostettaessa yksi ja toinen merkki voivat erottua toisistaan ​​(esimerkiksi rivin valitsemiseksi tulostamalla se kahdesti tai vierittääksesi rumpua useita rivejä), mutta tämä ei ole välttämätöntä tekstitiedostoissa.

Nimettyjen lisäksi tekstitiedostoissa on sellaisia ​​merkkejä kuin taulukko (koodi 9) ja sivunsyöttö (koodi 0xC). Jälkimmäistä käyttivät vanhat tekstieditorit, kuten LEXICON , sekä tulostimella tulostettaviksi tarkoitetuissa tiedostoissa.

Muistiinpanot

  1. Unicode-standardi, osa 2. . Haettu 11. elokuuta 2008. Arkistoitu alkuperäisestä 22. huhtikuuta 2021.