Tesseact

Tesseact


Tyyppi	optinen hahmon tunnistus
Kehittäjät	Hewlett-Packard , Google
Sisään kirjoitettu	C++
Käyttöliittymä	komentorivi
Käyttöjärjestelmä	Linux , Mac OS X ja muut UNIXin kaltaiset , Windows
Ensimmäinen painos	1980-luvun puolivälissä
uusin versio	5.2.0 ( 6. heinäkuuta 2022 ) [1]
Luettavat tiedostomuodot	TIFF , PNG , JPEG [d] , JP2 [d] ja WebP- tiedostojen vaihtomuoto
Luodut tiedostomuodot	HOCR , pelkkä teksti , PDF , ALTO [d] ja TSV
Lisenssi	Apache 2.0
Verkkosivusto	github.com/tesseract-ocr…
Mediatiedostot Wikimedia Commonsissa

Tesseract ( englanniksi - " tesseract ", muusta kreikasta. τέσσαρες ἀκτῖνες - "neljä sädettä") on ilmainen tietokoneohjelma tekstintunnistusta varten , jonka Hewlett-Packardi on kehittänyt 1980-luvun puolivälistä ja sitten 1990-luvun puoliväliin. "makaa hyllyllä". Elokuussa 2006 Google osti sen ja avasi lähdekoodin Apache 2.0 -lisenssillä [2] jatkokehitystä varten. Tällä hetkellä ohjelma toimii jo UTF-8:lla, kielituki (mukaan lukien venäjä versiosta 3.0 alkaen [3] [4] ) toteutetaan lisämoduulien avulla.

Historia

Tesseract-ohjelman ydin kehitettiin Hewlett Packardin Bristol Laboratoryssa ja Hewlett Packard Co:ssa, Greeleyssä , Coloradossa vuosina 1985-1994. Vuonna 1996 tehtiin merkittäviä muutoksia ja valmisteltiin portti Windowsille. Sitten vuodesta 1998 lähtien osittainen siirtyminen C:stä C++:aan. Merkittävä osa koodista kirjoitettiin alun perin C-kielellä, mutta parannuksia tehtiin yhteensopivuuden varmistamiseksi C ++ -kääntäjien kanssa. [2]

Tesseract 3.0 on tällä hetkellä rakennettu Linuxille, jossa on GCC 2.95 ja uudempi, ja Windowsille, jossa on Visual C++ 2008 Express ja uudemmat (Visual C++ 6:n tuki poistettiin versiossa 3.0 [3] ).

Tällä hetkellä uusin versio on Tesseract 5.0, joka perustuu LSTM :ään [5] .

Tesseractin graafiset rajapinnat

Linuxille _

Windowsille _

Tesseract-moottoriin perustuvat sivustot

Riippuvuudet

Leptonica

Mielenkiintoisia faktoja

Tucan Managerin lataushallinta käyttää Tesseractia tekstintunnistukseen CAPTCHA -testeissä .

Muistiinpanot

↑ https://github.com/tesseract-ocr/tesseract/releases/tag/5.2.0
↑ 1 2 Vincent, Luc ilmoittaa Tesseract OCR :stä (elokuu 2006). Haettu 26. kesäkuuta 2008. Arkistoitu alkuperäisestä 18. maaliskuuta 2012. (määrätön)
↑ 12 Tesseact 3.00 julkaistu . Haettu 5. lokakuuta 2010. Arkistoitu alkuperäisestä 9. lokakuuta 2010. (määrätön)
↑ Tesseractin lataussivu . Arkistoitu alkuperäisestä 18. maaliskuuta 2012. (määrätön)
↑ TESSERACT(1) manuaalisivu . Haettu 12. tammikuuta 2019. Arkistoitu alkuperäisestä 5. toukokuuta 2020.

Linkit

Optinen merkintunnistusohjelmisto

vapaa

Graafiset rajapinnat	OCRFeeder YAGF

omistusoikeus

Kognitiiviset muodot
Expervision
FineReader
Microsoft Office Document Imaging
OmniPage
Readiris
readsoft
simpleocr
Älykäs IDReader
SmartScore
ViewWise