Tekstitekniikan yleinen arkkitehtuuri (GATE) | |
---|---|
GATE-kehittäjän pääikkuna | |
Tyyppi | Tiedon louhinta, tiedon talteenotto |
Kehittäjät | Sheffieldin yliopisto |
Sisään kirjoitettu | Java |
Käyttöliittymä | Graafiset GATE-sovellusliittymät |
Käyttöjärjestelmä | Windows Vista, Windows XP, Mac OS X, Linux, Mac OS X, Solaris jne. |
Käyttöliittymäkielet | Englanti |
Ensimmäinen painos | 1995 |
Laitteistoalusta | Java-virtuaalikone |
uusin versio |
|
Lisenssi | LGPL |
Verkkosivusto | gate.ac.uk |
Mediatiedostot Wikimedia Commonsissa |
General Architecture for Text Engineering (GATE, ohjelma) on avoimen lähdekoodin luonnollisen kielen käsittelyjärjestelmä, joka käyttää Java - kielen komponenttijoukkoja [1] . Järjestelmä kehitettiin alun perin Sheffieldin yliopistossa ja sitä on kehitetty vuodesta 1995 lähtien.
GATE:n avulla toteutetaan tehtäviä, joissa on tunnistettava tekstin semanttinen sisältö ja koodattava se strukturoituun muotoon lisäämällä tekstisegmentteihin huomautuksia. GATE:tä käytetään yhdessä NLTK :n , R:n ja RapidMinerin kanssa [2] . Järjestelmää käytetään tiedon poimimiseen , manuaaliseen ja automaattiseen semanttiseen merkintään, viiteanalyysiin , ontologioiden kanssa työskentelyyn (esim. WordNet), koneoppimiseen (Weka, RASP, MAXENT, SVM Light), blogiviestien kulun analysointiin (esim. Twitter) [3] .
GATE-työkaluperheeseen kuuluvat: GATE Developer, GATE Mímir, GATE Cloud (suurten kieliprojektien työskentelyyn), GATE Teamware (palvelimen optimointi yhteiskäyttöistä tekstimerkintää varten), GATE Embedded (objektikirjasto) [4] .
GATE:n taustalla on laaja kehittäjien, käyttäjien, opettajien, opiskelijoiden ja tutkijoiden yhteisö. Käytetään kaupallisissa ja tutkimusprojekteissa suuryrityksissä, tutkimuslaboratorioissa ja yliopistoissa sekä pienissä ja keskisuurissa kaupallisissa yrityksissä ympäri maailmaa. GATE:tä sovelletaan useilla tieteenaloilla, jotka liittyvät laskennalliseen lingvistiikkaan , luonnollisen kielen käsittelyyn , kieliprosessien mallintamiseen, laskennalliseen biologiaan ja lääketieteeseen [5] . GATE:tä käyttävät projektit: ForgetIT (UK), National Archives (UK), EMILLE (UK), myGRID Arkistoitu 29. syyskuuta 2013 Wayback Machinessa (UK), AKT (UK), KIT Semantic Platform , Ontotext (Bulgaria), MeManage (linkki ei saatavilla) (Saksa), Med Dictate (Kanada), IE Denso (Japani) [6] .
GATE-arkkitehtuuri koostuu toisiinsa liittyvistä komponenteista: ohjelmiston "kappaleista", joissa on hyvin määritellyt rajapinnat, joita voidaan käyttää useissa eri yhteyksissä. GATE toteuttaa valmiita ratkaisuja tokenointiin, taggaukseen, tekstin jakamiseen lauseiksi (jakaja), nimettyjen entiteettien purkamiseen , koneoppimiseen . Komponentit on jaettu kolmeen luokkaan toiminnan mukaan:
Seuraavia asiakirjamuotoja tuetaan: Pelkkä teksti, HTML, SGML, XML, RTF, sähköposti, PDF (jotkut asiakirjat), Microsoft Office (jotkut tiedostomuodot), OpenOffice (jotkut muodot), UIMA CAS, CoNLL/IOB. Asiakirjamuotojen käsittelyssä GATE:ssä on useita erityisominaisuuksia [7] . GATEssa on sisäänrakennettuja erilaisia työkaluja Unicoden kanssa työskentelyyn. Tuetut kielet: Englanti (oletus), espanja, kiina, arabia, bulgaria, ranska, saksa, hindi, italia, Cebuano, romania, venäjä.
Kun ohjelma käynnistetään, sen pääikkunassa on neljä päävalikkokohtaa: Sovellukset, Kieliresurssit, Käsittelyresurssit, Tietovarastot.
Ohjain ja siihen liittyvät tekstinkäsittelyohjelmat (Processing Resources). Määritellyt ja tallennetut tekstinkäsittelyprosessit voidaan soveltaa uudelleen yhteen asiakirjaan tai tekstikorpukseen. Tämä varmistaa luotettavan tekstinkäsittelyn ja säästää aikaa.
Sisältää kolmenlaisia tietoja: asiakirjoja, korpusia ja huomautuskaavioita.
Ohjelmat tekstinkäsittelyyn. GATE:ssä resursseja käytetään merkintöjen automaattiseen luomiseen ja hallintaan. PR:n avulla voit lisätä tai muuttaa asiakirjamerkintöjä. Uusi PR luodaan samalla tavalla kuin LR. PR:tä luotaessa asetetaan parametreja, joita on kahta tyyppiä: alustusparametrit ja käynnistysparametrit. Ensimmäinen on asetettava, kun resurssi luodaan, jälkimmäinen juuri ennen kuin se käynnistetään ohjaimesta. Ohjaimet ohjaavat PR:n toimintaa. He ovat vastuussa PR:n soveltamisjärjestyksestä ja PR:n vuorovaikutuksesta LR:n kanssa. Ohjainten päätyypit:
Pipeline- ja Corpus Pipeline -työskentelyn periaatteet ovat samanlaiset: luodaan uusi ohjain (klikkaa hiiren oikealla painikkeella Sovellukset > Uusi > ohjaimen nimi), PR:t valitaan vasemmalla olevasta listasta ja asennetaan käyttäjän määrittelemässä järjestyksessä. Määritä kohdeasiakirja, jos kyseessä on Pipeline, kohdekorpus, jos kyseessä on Corpus Pipeline, parametrit PR:lle on määritelty. Suorituksen käynnistämisen jälkeen ohjain aloittaa peräkkäisen PR:n käynnistämisen valituista asiakirjoista käyttäjän määrittelemässä järjestyksessä.
Ohjaimen konfiguraatiot (PR + asetukset) voidaan tallentaa Sovelluksiin (Save application state), mieluiten .gapp-laajennuksella.
CREOLE-resurssipakettiGATEen integroitu resurssijoukko tunnetaan nimellä CREOLE - Reusable Objects for Language Engineering. Resurssit tallennetaan CREOLE-tietovarastoihin, jotka sisältävät XML-tiedostoja, Java-arkistokoodeja ja resursseille tarvittavia kirjastoja. Käytetyt resurssit on ryhmitelty liitännäisiksi [8] , jotka on tallennettu tiettyyn osoitteeseen (URL tai tiedosto:/URL). Laajennukset voivat olla perus (ladataan GATE-asennuksen aikana) ja mukautettuja, ne voivat sijaita paikallisella asemalla tai etäpalvelimella. Kun tiedosto ladataan GATEen, se näyttää creole.xml-asetustiedostolta. CREOLE-laajennuksia hallitaan käyttöliittymän kautta käyttämällä Tiedosto > Hallitse CREOLE-laajennuksia > Lisää uusi creole-arkisto -komento. GATE esitetään asetusten (toimintojen) joukkona, jossa käyttäjä yhdistää CREOLE-komponentit: käyttäjä määrittää osoiteluettelon, GATE poimii niistä vastaavat resurssit (PR). Kun laajennus on valittu, sen asetusluettelo tulee näkyviin oikealla olevaan kenttään.
Tietovarasto. Tarvitaan asiakirjojen/tapausten ja prosessien tallentamiseen myöhempää käyttöä varten. Kaikista tallennustyypeistä käytetään usein Serial DataStorea. säilytyspurkki
Sovellusten tekstinkäsittelyprosessien sarja voidaan ajaa DataStoren alta. Avaa DataStore, avaa kotelo ja valitse sitten Sovellukset-kohdassa tämä tapaus. Kun Sovellus suoritetaan DataStoren rungossa, jokainen asiakirja ladataan, käsitellään, tallennetaan ja suljetaan. Eli vain yksi asiakirja käsitellään kerrallaan. Tämä ei ylikuormita muistia, mutta prosessi on hitaampi kuin jos kaikki asiakirjat käsiteltäisiin samanaikaisesti.
Merkitsemällä asiakirjoja yhtenäisten sääntöjen mukaisesti voit etsiä ja poimia tietoja dokumentista, luoda ontologioita .
GATEssa dokumenttieditorin avaamisen jälkeen näkyviin tulee Annotation Sets- ja Annotations List (tai Annotations List (tai Gate-versiosta riippuen) Annotations) -välilehdet, joissa oikealla olevasta luettelosta voit tarkistaa, minkä tyyppisiä huomautuksia haluat näyttää tai luoda huomautuksia. . Muuta väriä -toiminto on käytettävissä. Kun tekstinpätkä, johon huomautus liitetään, valitaan, näkyviin tulee Annotation Editor -ikkuna, joka sisältää seuraavat kentät ja säätimet:
Merkinnät on ryhmitelty AnnotationSets-ryhmiin. Tämä on kätevä ominaisuus, jonka avulla voit tallentaa useita merkintävaihtoehtoja yhdelle asiakirjalle, esimerkiksi asiantuntijan ja automaattisen. Asiantuntijamerkinnät tallennetaan yleensä AnnotationSet-nimiseen avainsarjaan. Automaattinen merkintä kirjoitetaan yleensä tyhjään AnnotationSet-kirjaan, joka on oletuksena kaikissa asiakirjoissa. Asiakirjoissa ei ole AnnotationSet Key -avainta, sinun on luotava se, kirjoitettava sana Key merkintätyyppien alla olevaan kenttään ja klikattava Uusi.
GATE:ssä on tekoälyjärjestelmä nimeltä ANNIE (A Nearly-New Information Extraction System), joka sisältää joukon resursseja, jotka tarjoavat tokenoinnin (ANNIE English Tokenizer), POS-taggauksen (ANNIE POS-Tagger), jaettuna lauseisiin (ANNIE Sentence Splitter) , nimetty kokonaisuuden purkaminen (ANNIE Gazetteer ja ANNIE NE Transducer) ja korreferenssianalyysi (ANNIE OrthoMatcher). Kehittäjät: Hamish Cunningham, Valentin Tablan, Diana Maynard, Kalina Bontcheva, Marin Dimitrov ja muut. ANNIE-kehittäjät käyttävät JAPE [9] äärellisiä automatisointialgoritmeja ja säännöllisiä lausekkeita .
ANNIE-komponentit on integroitu sovellukseen, joten alustusta varten klikkaa vastaavaa vihreää kuvaketta GATE-työkalurivillä ja valitse oletusasetuksilla. Kun kaikki resurssit näkyvät Käsittelyresurssit-luettelossa, kaksoisnapsauta avataksesi ANNIE-sovelluksen, joka on Sovellukset-luettelossa. ANNIE-sovelluksen käyttöliittymä on sama kuin muiden sovellusten. Oikealla puolella on järjestetty luettelo resursseista, joita kutsutaan asiakirjassa täsmälleen luettelossa määritetyssä järjestyksessä. ANNIE-sovellus kuuluu Corpus Pipeline -luokkaan, eli sen tulee toimia tekstikorpuksella. ANNIE-järjestelmän toiminnan seurauksena oletusarvoiseen merkintäjoukkoon lisätään useita merkintöjä, mukaan lukien Token (tunnisteet), lause (lauseet), Lookup (sanakirjamerkinnät), henkilö, sijainti, organisaatio. Jos korpus ja asiakirjat olivat DataStoressa ennen ANNIE:n suorittamista, ANNIE hakee asiakirjat yksitellen, käsittelee ne ja palauttaa ne.
Luettelo komponenteista:
GATEssa on sisäänrakennetut työkalut tekstinkäsittelyn tulosten testaamiseen:
Parametrit: Avainjoukko (AnnotationSetin nimi merkinnällä #1), Vastausjoukko (AnnotationSetin nimi merkinnällä #2), Tyyppi (vain yhtä tyyppiä voidaan testata kerrallaan), Ominaisuudet (vertaamme attribuutteja). Kun vertailu on aloitettu (Vertaa), AnnotationDiff tulostaa merkintäparit ja merkitsee parin tyypin värillä. Tyypit: Oikea (täysi vastaavuus), Puuttuu (oikeaa huomautusta ei löytynyt), Väärä/Väärä positiivinen (ylimääräinen huomautus löydetty), Osittain oikein (osittain ylittää huomautuksen rajat). Erityyppisten parien lukumäärän mukaan lasketaan vakiomittaukset Precision, Recall ja F.
Corpus Quality Assurance -välilehti avautuu haluttuun korpus-ikkunaan. CQA kerää tietoja sarjoista, merkinnöistä ja niiden ominaisuuksista. On tarpeen asettaa parametrit, valita arviointityypit (esim. F1.0-pistemäärä tiukka, lievä ja keskimääräinen). Suorita vertailu. Asiakirjatilastot-välilehdellä voit tarkastella asiakirjojen tilastoja sekä avata valitun asiakirjan välittömästi tai tarkastella sen AnnotationDiff-kuvaa. Testitulokset voidaan viedä HTML-muotoon.
GATE Mímir on avoimen lähdekoodin hakukone, jota isännöidään SourceForgessa ja jota jaetaan GNU Lesser General Public License 3.0 -lisenssillä. GATE Mímir tarjoaa tukea kielellisen ja semanttisen tiedon indeksointiin ja etsimiseen sovelluksista, joissa on valtavia kielitietokantoja. GATE Mímir tarjoaa mahdollisuuden etsiä tietoa tekstistä, huomautuksista, semanttisista ontologioista ja semanttisista metatiedoista käyttämällä mielivaltaisia tekstin, rakennetietojen ja SPARQL-yhdistelmiä. Kehittäjät eivät tarjoa valmiita pakattuja tuotteita, mutta tarjoavat lähteiden lataamista ja omien tiedostojen kokoamista. GATE Mímir -käyttöopas [10] , käyttöesimerkkejä [11] tarjotaan , uusimmista julkaisuversioista on saatavilla koko lähdepuun arkistot [12] .