Tekstitiedosto | |
---|---|
MIME-tyyppi | tekstiä / tavallista |
Vastapäätä | binääritiedosto ja grafiikkatiedosto |
Tiedostopääte | .txttai.text |
Mediatiedostot Wikimedia Commonsissa |
Tekstitiedosto on tietokonetiedosto , joka sisältää tekstidataa . Tekstitiedostot vastustavat binääritiedostoja , jotka sisältävät dataa, jota ei ole suunniteltu tulkittavaksi tekstiksi (esimerkiksi tiedostot, jotka tallentavat tekstiä koodatussa tai pakatussa muodossa tai jotka eivät tallenna tekstiä, vaan ääntä, kuvaa tai muuta tiedot).
Toisin kuin termi "tekstidata" (tekstidatamuoto), joka kuvaa tiedon sisältöä, termi "tekstitiedosto" viittaa tiedostoon ja luonnehtii sitä säiliöksi, joka tallentaa tällaisia tietoja.
Tekstitiedosto sisältää merkkijonon (useimmiten tulostettuja merkkejä , jotka kuuluvat yhteen tai toiseen merkistöyn ). Nämä merkit on yleensä ryhmitelty riveihin ( englanniksi rivit, rivit ). Nykyaikaisissa järjestelmissä rivit erotetaan rivierottimella , kun taas aiemmin merkkijonot tallennettiin vakio- tai vaihtelevan pituisina tietueina (katso: Rei'itetty kortti ). Joskus tekstitiedoston loppuun (varsinkin jos tiedostojärjestelmä ei tallenna tietoja tiedoston koosta) on myös merkitty yksi tai useampi erikoismerkki, joka tunnetaan nimellä tiedoston loppumerkit .
Edut:
Virheet:
Tekstitiedostoja käytetään yksinkertaisuutensa vuoksi usein palvelutietojen (esimerkiksi lokien ) tallentamiseen: koska uuden tiedon lisääminen tekstitiedoston loppuun ei vaadi merkittäviä laskentaresursseja, riippumatta jo käytettävissä olevan tiedoston koosta. ja lisättävän tekstitiedon tyyppi, tekstilokitiedostojen ylläpito tapahtuu yleensä tehokkaasti ja huomaamattomasti käyttäjän ja muiden sovellusten kannalta (levytilan loppuun asti).
Tekstimuoto toimii perustana monille erikoistuneemmille muodoille (esim . .ini , SGML , HTML , XML , TeX , ohjelmointikielen lähdekoodi ). Joissakin näistä muodoista tiettyjä merkkiyhdistelmiä voidaan käyttää tekstimerkintöinä. Tässä tapauksessa tiedosto voi tallentaa muotoiltua tekstiä, jossa kirjasin, tyyli, koko jne. voidaan lisäksi määrittää merkeille (esim. Rich Text Format , HTML ).
DOS- , macOS- ja Windows -käyttöjärjestelmissä pelkät tekstitiedostot käyttävät yleensä .txt - tunnistetta . Tekstitiedostot voivat kuitenkin olla millä tahansa muulla tunnisteella tai ilman. Esimerkiksi ohjelmien lähdekoodit tallennetaan yleensä tiedostoihin, joiden tunniste vastaa sitä ohjelmointikieltä , jolla ohjelmat on kirjoitettu ( .java , .bas , .pas , .c ).
Muotoiltu teksti (teksti merkinnöillä) tallennetaan yleensä tiedostoihin, joiden tunniste vastaa muotoa tai merkintäkieltä - .rtf , .htm , .html .
Historiallisesti 7- bittistä ASCII - merkistöä sekä 8-bittistä EBCDIC :tä ja erilaisia ASCII-laajennuksia on käytetty tekstitiedostojen koodaamiseen . 8-bittisillä koodisivuilla on yleistä käyttää ASCII:ta vastaavia merkkejä kooditaulukon ensimmäisessä puoliskossa.
8-bittisen tekstin esityksen etuna on ohjelmallinen yksinkertaisuus ja riippumattomuus tavujärjestyksestä tai koneen sanan pituusongelmista . Haittapuolena on suuri määrä erilaisia standardeja, mikä voi johtaa yhteensopimattomuuteen.
Unicoden käyttö tekstitiedostoissa, vaikka se pohjimmiltaan ratkaisee "koodausongelman" ja standardoi ohjausmerkkien käytön, luo omat ongelmansa. Useimmissa nykyaikaisissa järjestelmissä tietovirran jakamaton yksikkö on tavu (8 bittiä) , joka vaatii useita yhden merkin koodaamiseen Unicodesta. Ratkaisu on käyttää yhteensopimattomia UTF-8- järjestelmiä ja kahta UTF-16- versiota (UTF-16LE ja UTF-16BE vastakkaisella endianilla ) . Joskus tiedoston alkuun lisätään erikoismerkki (U+FEFF [1] ), joka mahdollistaa muodon yksiselitteisen tunnistamisen. UTF-8:lla on se etu, että se on taaksepäin yhteensopiva ASCII:n kanssa, mutta UTF-8:n ohjelmoitua tekstinkäsittelyä vaikeuttaa muuttuva merkkikoko. Lisäksi Unicode-tekstit ovat jopa ylimääräisempiä kuin 8-bittiset.
Eri käyttöjärjestelmillä on oma tapansa esittää rivinvaihtoja ja tiedoston loppua. UNIXissa rivinvaihto koostuu yhdestä LF-merkistä (koodi 0xA), Mac OS :ssä (mutta ei macOS :ssä) se koostuu CR-merkistä (koodi 0xD), ja DOSissa ja Windowsissa rivinvaihto on koodattu sekvenssinä. kaksi merkkiä: CR ja LF.
Tämän eron sanelevat kirjoituskoneiden toimintaperiaatteet: siirtyäksesi uudelle riville, sinun on palautettava vaunu rivin alkuun ( vaunun paluu ) ja käännettävä sitten rumpua yksi rivi ( rivinsyöttö ). Tulostimella tulostettaessa yksi ja toinen merkki voivat erottua toisistaan (esimerkiksi rivin valitsemiseksi tulostamalla se kahdesti tai vierittääksesi rumpua useita rivejä), mutta tämä ei ole välttämätöntä tekstitiedostoissa.
Nimettyjen lisäksi tekstitiedostoissa on sellaisia merkkejä kuin taulukko (koodi 9) ja sivunsyöttö (koodi 0xC). Jälkimmäistä käyttivät vanhat tekstieditorit, kuten LEXICON , sekä tulostimella tulostettaviksi tarkoitetuissa tiedostoissa.
laitteet ja asiakirjat ) | E-kirjat (|
---|---|
Laitesarja | |
Tiedostomuodot | |
Katalogit | |
Kirjastot | |
Katso myös |