Kirjojen digitalisointi

Kirjojen digitalisointi  on prosessi, jossa paperikirjat muunnetaan sähköiseen ( digitaaliseen) muotoon. Kirjojen sähköiset kopiot voivat muodostaa digitaalisia kirjastoja ja levittää niitä verkossa. Digitaalisia kirjoja voi helposti jakaa, toistaa ja lukea ruudulta. Yleensä digitoidut kirjat tallennetaan muodossa: DjVu, Portable Document Format (PDF), JPG tai TIFF . Optista merkintunnistusta ( OCR ) käytetään alkuperäisen kuvan muuntamiseen , kirjan sivut on muutettava digitaaliseen muotoon, kuten ASCII, tai muu vastaava muoto, joka pienentää tiedostokokoa ja mahdollistaa tekstin käsittelyn. Kuvan skannaus voidaan tehdä manuaalisesti tai automaattisesti. Perinteisissä skannereissa kirja asetetaan lasille, valo putoaa kirjan päälle ja optinen mekanismi skannaa kirjan liikkuessaan lasin alla. Muut kirjaskannerit käyttävät V-kehystä ja valokuvasivuja ylhäältä. Sivuja voidaan kääntää manuaalisesti tai automaattisilla paperinsyöttölaitteilla. Erityinen massiivinen lasi puristaa yleensä sivuja skannausvirheiden tasoittamiseksi. Skannauksen jälkeen ohjelma korjaa asiakirjan kuvan, suoristaa sen, rajaa, muokkaa ja muuntaa tekstiksi sekä e-kirjan lopullisen muodon. Yleensä ihmiset tarkistavat skannatun kuvan virheiden varalta.

Skannaus 118 dpi:llä (300 dpi) on tekstin digitoinnin normi, mutta harvinaiset ja monimutkaiset kirjat vaativat korkeamman resoluution. Huipputekniset skannerit pystyvät skannaamaan noin tuhat sivua tunnissa. On olemassa käsikäyttöisiä kirjaskannereita, jotka pystyvät digitoimaan noin 1200 sivua tunnissa.

Digitalisointimetodologia

Aiemmin kirjan manuaalinen kirjoittaminen oli yleisempää.

Nykyään digitalisointiprosessi sisältää kaksi lähestymistapaa.

  1. Pakollinen: kopioiden hankkiminen sivuista graafisten (yleensä rasteri ) kuvien muodossa skannaamalla tai valokuvaamalla, minkä jälkeen käsitellään ja tallennetaan johonkin graafisista tiedostomuodoista. Tällöin kirjan alkuperäinen ulkoasu säilyy täysin ja mahdolliset virheet poissuljetaan, mutta tekstikatkelmia ei voi hakea tai poimia esimerkiksi lainaustarkoituksiin.
  2. Valinnainen: tekstintunnistus (optinen merkintunnistustekniikka - OCR ), jonka jälkeen tunnistettu teksti tallennetaan johonkin e- kirjamuodoista . Tällöin kirjan kokotekstihaku ja suurten e-kirjojen indeksointi tulee mahdolliseksi , mutta alkuperäisen asettelun, kuvien, kaavioiden ja kaavojen toistaminen vaikeutuu ja tunnistusvirheet ovat lähes väistämättömiä.

Viime aikoina (etenkin PDF- ja DjVu -muotojen myötä ) on käytetty yhä useammin sekoitettua lähestymistapaa: kirjan teksti tunnistetaan automaattisesti ja sijoitetaan sivujen alkuperäisten bittikarttakuvien alle, jolloin voit yhdistää molempien lähestymistapojen edut. .

Kirjaskannerit

Kirjaskannerit ovat pitkälle erikoistuneita skannereita, jotka on suunniteltu tuottamaan bittikarttakopioita kirjan sivuista mahdollisimman nopeasti ja/tai kätevästi. On ehdollisesti mahdollista erottaa kolme tyyppiä tällaisia ​​skannereita:

Kaksi viimeistä skannerityyppiä eivät yleensä käytä skannausviivainta, vaan yhtä korkearesoluutioista digitaalikameraa (30-140 megapikseliä ), joka sijaitsee skannattavan alkuperäisen yläpuolella. Joissakin malleissa on mahdollista käyttää kahta kameraa, jotka on asennettu kulmaan toisiinsa nähden siten, että ne ottavat samanaikaisesti kuvia koko levinneisyydestä (kirjaa ei tarvitse avata 180°, mikä on kriittistä vanhaa digitoitaessa tai huonokuntoisia alkuperäisiä).

Planetaariset ja robottiskannerit voivat saavuttaa tuottavuuden 500-2000 sivua tunnissa, parhaimmilla malleilla - jopa 2500-3000 sivua tunnissa.

Ammattimaiset kirjaskannerit

Ammattimaiset kirjaskannerit skannaavat alkuperäiset korkealaatuisina käyttämällä kahta digitaalikameraa ja valoja kameran molemmilla puolilla, jolloin voit kuvata uudelleen levitetyn kirjan kerralla. Tällaisten skannerien etuna on suuri kuvausnopeus sekä se, ettei kirjaa tarvitse avata 180 astetta. Tällaisten skannerien hinnat alkavat kuitenkin yleensä 10 000 dollarista.

Skannaus sivun rajauksella

Pienen budjetin kirjojen skannaukseen halvin tapa on skannata kirja tai aikakauslehti, jonka sivu on leikattu selästä. Tämä muuttaa kirjan tai aikakauslehden pinon asiakirjoja, jotka voidaan ladata tavalliseen automaattiseen asiakirjansyöttölaitteeseen, vaikka tämä ei todellakaan ole hyvä ratkaisu hyvin vanhoille ja epätavallisille kirjoille, varsinkin kun kirja on kallis ja keräilykelpoinen. Tässä skannauksessa on kaksi vaikeutta, sivun leikkaaminen ja itse skannaus.

Sivun rajaus

Yksi tapa leikata kirjoja 500 sivusta 1000 sivuun kerrallaan on paperigiillotiinilla. Tämä malli on suuri teräspöytä, jossa on paperiruuvipuristimet. Leikkaus tehdään suurella, teroitetulla terästerällä, joka liikkuu suoraan ja leikkaa jokaisen arkin koko pituuden kerralla. Terässä oleva vipu mahdollistaa satojen kilojen luokkaa olevan voiman kohdistamisen, mikä on välttämätöntä paperipinon läpi leikkaamiseksi. Puhdas leikkaus ei onnistu perinteisellä puolikuun veitsellä, sillä se on tarkoitettu vain useiden arkkien leikkaamiseen, jossa 10 arkkia on käytännössä rajana. Ajan myötä isoa paperipinoa leikattaessa leikkaus muuttuu yhä epätarkemmaksi ja paperin leikkaamiseen tarvittava voima kasvaa. Giljotiinileikkausprosessi tylsää terää ajan myötä, joten terä on teroitettava. Päällystetty paperi himmentää terää nopeammin kuin tavallinen paperi.

Skannaus

Kun paperi on vapaa kirjan selästä, voit skannata perinteisellä tasoskannerilla tai käyttää automaattista asiakirjansyöttöskanneria. Sivujen, joissa on uurretut koristereunat tai kaarevat reunat, voi olla vaikea skannata automaattisella asiakirjansyöttölaitteella. ADF on suunniteltu skannaamaan samanmuotoisia ja -kokoisia sivuja, joten eri sivukoot tai -muodot voivat johtaa virheelliseen skannaukseen. Aikakauslehdissä ja oppikirjoissa käytetty paperi ei ehkä syöty kunnolla automaattiseen paperinsyöttölaitteeseen. Yleensä vähiten ongelmia syntyy tavallisen paperin kanssa. Paperiin tarttuva tarrarulla voi kulua ajan myötä, joten sen suorituskykyä on seurattava huolellisesti. Jos paperipinossa on erilaisia ​​paperiarkkeja, kuten kortteja, ne on poistettava välittömästi ennen skannausta.

Skannaa ilman häiriöitä

DSC-pohjainen skanneri. Skanneri on suunniteltu digitoimaan sekä sidottuja että brodeerattuja julkaisuja. Soveltuu sekä suhteellisen uusien että huonokuntoisten julkaisujen digitointiin erityisen V-muotoisen telineen ansiosta, jonka ansiosta kirjaa ei voi avata kokonaan (180 astetta), mikä minimoi haitalliset vaikutukset julkaisuun. Kirja pysyy samassa asennossa. Skannausnopeus (väritila) - noin 500-700 sivua / tunti. Sivut käännetään manuaalisesti (on automaattikäännöllisiä malleja, mutta arvokkaita, kirjastorahaston perustana olevia, huonokuntoisia kirjoja ei suositella digitoida tällaisilla laitteilla vaurioiden välttämiseksi). Skannatun asiakirjan muoto on A2-A4. Tuloksena olevien kuvien resoluutio on 130-470 dpi (optinen). Tämän tyyppiset skannerit vievät paljon työtilaa, mutta ne eivät käytännössä ole alttiita häiriöille, koska ne ovat skannausalustoja. Modernisoitu korvaamalla kamerat edistyneemmillä malleilla. Käynnistyy napin painalluksella. Esimerkki tällaisista skannereista olisi digitaalikameroita käyttävät skannerit.

Suuret kirjojen digitalisointiprojektit

Laajamittainen kirjojen digitointiprojektit käsittelevät yleensä julkisiksi tulleita kirjoja . Vaikka Google digitoi kaikki kirjat yleensä, tekijänoikeudella suojatut kirjat tarjotaan kuitenkin vain katkelmina. Tähän mennessä suuria digitalisointiprojekteja ovat mm.

Yksi suurimmista ongelmista on skannattavien kirjojen suuri määrä. Kymmeniä miljoonia kirjoja skannataan, minkä jälkeen niiden pitäisi olla vapaasti saatavilla ja haettavissa Internetissä yleiskirjastona. Tällä hetkellä suuret organisaatiot luottavat ulkoistamiseen tai skannaukseen kotona ammattimaisilla tai robottiskannereilla.

Mitä tulee ulkoistamiseen, kirjoja lähetetään usein digitoitaviksi Intiaan tai Kiinaan alhaisimpien hintojen vuoksi. Ammattiskannerit käyttävät digitaalikameroita, mikä nopeuttaa huomattavasti koko prosessia. Robottiskannereilla on perinteisesti ollut tarvetta erottaa sivut kirjan selkärangasta, jotta sivut voidaan syöttää automaattisesti.

Kun sivu on skannattu, tiedot syötetään manuaalisesti tai OCR:n avulla, mikä on toinen kirjan skannauskustannusten mitta. Tekijänoikeusongelmien vuoksi useimmat skannatut kirjat eivät kuulu tekijänoikeuden piiriin . Googlen teoshaun tiedetään kuitenkin skannaavan tekijänoikeudella suojattuja kirjoja, ja se voi poistaa kirjan julkisesti vain, jos kustantaja on nimenomaisesti sulkenut kirjan pois hausta.

Digitalisointi tahdon mukaan

Useat suuret kirjastot tarjoavat erikoispalveluita kokoelmiensa julkaisujen digitointiin lukijoiden pyynnöstä. Pääkriteerit: julkaisujen on oltava julkisia ja riittävässä kunnossa. Siten digitointiprosessin rahoituslähde ilmaantuu tai joukkodigitoinnille asetetaan prioriteetit. Pääsääntöisesti kirjaston luetteloon on integroitu merkintä skannausmahdollisuudesta , digitoitu julkaisu sijoitetaan sähköiseen kirjastoon yleisön saataville.

Olemassa olevat projektit

Katso myös

Muistiinpanot

  1. Arkistoitu kopio (linkki ei saatavilla) . Haettu 26. marraskuuta 2008. Arkistoitu alkuperäisestä 20. joulukuuta 2008. 
  2. DigiWunschbuch: WUNSCHBÜCHER (downlink) . Haettu 26. marraskuuta 2008. Arkistoitu alkuperäisestä 28. maaliskuuta 2008. 

Linkit