Tesseact

Tesseact
Tyyppi optinen hahmon tunnistus
Kehittäjät Hewlett-Packard , Google
Sisään kirjoitettu C++
Käyttöliittymä komentorivi
Käyttöjärjestelmä Linux , Mac OS X ja muut UNIXin kaltaiset , Windows
Ensimmäinen painos 1980-luvun puolivälissä
uusin versio
Luettavat tiedostomuodot TIFF , PNG , JPEG [d] , JP2 [d] ja WebP- tiedostojen vaihtomuoto
Luodut tiedostomuodot HOCR , pelkkä teksti , PDF , ALTO [d] ja TSV
Lisenssi Apache 2.0
Verkkosivusto github.com/tesseract-ocr…
 Mediatiedostot Wikimedia Commonsissa

Tesseract  (  englanniksi  -  " tesseract ", muusta kreikasta. τέσσαρες ἀκτῖνες - "neljä sädettä") on ilmainen tietokoneohjelma tekstintunnistusta varten , jonka Hewlett-Packardi on kehittänyt 1980-luvun puolivälistä ja sitten 1990-luvun puoliväliin. "makaa hyllyllä". Elokuussa 2006 Google osti sen ja avasi lähdekoodin Apache 2.0 -lisenssillä [2] jatkokehitystä varten. Tällä hetkellä ohjelma toimii jo UTF-8:lla, kielituki (mukaan lukien venäjä versiosta 3.0 alkaen [3] [4] ) toteutetaan lisämoduulien avulla.

Historia

Tesseract-ohjelman ydin kehitettiin Hewlett Packardin Bristol Laboratoryssa ja Hewlett Packard Co:ssa, Greeleyssä , Coloradossa vuosina 1985-1994. Vuonna 1996 tehtiin merkittäviä muutoksia ja valmisteltiin portti Windowsille. Sitten vuodesta 1998 lähtien osittainen siirtyminen C:stä C++:aan. Merkittävä osa koodista kirjoitettiin alun perin C-kielellä, mutta parannuksia tehtiin yhteensopivuuden varmistamiseksi C ++ -kääntäjien kanssa. [2]

Tesseract 3.0 on tällä hetkellä rakennettu Linuxille, jossa on GCC 2.95 ja uudempi, ja Windowsille, jossa on Visual C++ 2008 Express ja uudemmat (Visual C++ 6:n tuki poistettiin versiossa 3.0 [3] ).

Tällä hetkellä uusin versio on Tesseract 5.0, joka perustuu LSTM :ään [5] .

Tesseractin graafiset rajapinnat

Linuxille _ Windowsille _

Tesseract-moottoriin perustuvat sivustot

Riippuvuudet

Mielenkiintoisia faktoja

Tucan Managerin lataushallinta käyttää Tesseractia tekstintunnistukseen CAPTCHA -testeissä .

Muistiinpanot

  1. https://github.com/tesseract-ocr/tesseract/releases/tag/5.2.0
  2. 1 2 Vincent, Luc ilmoittaa Tesseract OCR :stä (elokuu 2006). Haettu 26. kesäkuuta 2008. Arkistoitu alkuperäisestä 18. maaliskuuta 2012.
  3. 12 Tesseact 3.00 julkaistu . Haettu 5. lokakuuta 2010. Arkistoitu alkuperäisestä 9. lokakuuta 2010.
  4. Tesseractin lataussivu . Arkistoitu alkuperäisestä 18. maaliskuuta 2012.
  5. TESSERACT(1)  manuaalisivu . Haettu 12. tammikuuta 2019. Arkistoitu alkuperäisestä 5. toukokuuta 2020.

Linkit