Tesseact | |
---|---|
Tyyppi | optinen hahmon tunnistus |
Kehittäjät | Hewlett-Packard , Google |
Sisään kirjoitettu | C++ |
Käyttöliittymä | komentorivi |
Käyttöjärjestelmä | Linux , Mac OS X ja muut UNIXin kaltaiset , Windows |
Ensimmäinen painos | 1980-luvun puolivälissä |
uusin versio |
|
Luettavat tiedostomuodot | TIFF , PNG , JPEG [d] , JP2 [d] ja WebP- tiedostojen vaihtomuoto |
Luodut tiedostomuodot | HOCR , pelkkä teksti , PDF , ALTO [d] ja TSV |
Lisenssi | Apache 2.0 |
Verkkosivusto | github.com/tesseract-ocr… |
Mediatiedostot Wikimedia Commonsissa |
Tesseract ( englanniksi - " tesseract ", muusta kreikasta. τέσσαρες ἀκτῖνες - "neljä sädettä") on ilmainen tietokoneohjelma tekstintunnistusta varten , jonka Hewlett-Packardi on kehittänyt 1980-luvun puolivälistä ja sitten 1990-luvun puoliväliin. "makaa hyllyllä". Elokuussa 2006 Google osti sen ja avasi lähdekoodin Apache 2.0 -lisenssillä [2] jatkokehitystä varten. Tällä hetkellä ohjelma toimii jo UTF-8:lla, kielituki (mukaan lukien venäjä versiosta 3.0 alkaen [3] [4] ) toteutetaan lisämoduulien avulla.
Tesseract-ohjelman ydin kehitettiin Hewlett Packardin Bristol Laboratoryssa ja Hewlett Packard Co:ssa, Greeleyssä , Coloradossa vuosina 1985-1994. Vuonna 1996 tehtiin merkittäviä muutoksia ja valmisteltiin portti Windowsille. Sitten vuodesta 1998 lähtien osittainen siirtyminen C:stä C++:aan. Merkittävä osa koodista kirjoitettiin alun perin C-kielellä, mutta parannuksia tehtiin yhteensopivuuden varmistamiseksi C ++ -kääntäjien kanssa. [2]
Tesseract 3.0 on tällä hetkellä rakennettu Linuxille, jossa on GCC 2.95 ja uudempi, ja Windowsille, jossa on Visual C++ 2008 Express ja uudemmat (Visual C++ 6:n tuki poistettiin versiossa 3.0 [3] ).
Tällä hetkellä uusin versio on Tesseract 5.0, joka perustuu LSTM :ään [5] .
Tucan Managerin lataushallinta käyttää Tesseractia tekstintunnistukseen CAPTCHA -testeissä .
Optinen merkintunnistusohjelmisto | |||
---|---|---|---|
vapaa |
| ||
omistusoikeus |
|