GATE (ohjelma)

Tekstitekniikan yleinen arkkitehtuuri (GATE)

GATE-kehittäjän pääikkuna
Tyyppi Tiedon louhinta, tiedon talteenotto
Kehittäjät Sheffieldin yliopisto
Sisään kirjoitettu Java
Käyttöliittymä Graafiset GATE-sovellusliittymät
Käyttöjärjestelmä Windows Vista, Windows XP, Mac OS X, Linux, Mac OS X, Solaris jne.
Käyttöliittymäkielet Englanti
Ensimmäinen painos 1995
Laitteistoalusta Java-virtuaalikone
uusin versio
Lisenssi LGPL
Verkkosivusto gate.ac.uk
 Mediatiedostot Wikimedia Commonsissa

General Architecture for Text Engineering (GATE, ohjelma)  on avoimen lähdekoodin luonnollisen kielen käsittelyjärjestelmä, joka käyttää Java - kielen komponenttijoukkoja [1] . Järjestelmä kehitettiin alun perin Sheffieldin yliopistossa ja sitä on kehitetty vuodesta 1995 lähtien.

GATE:n avulla toteutetaan tehtäviä, joissa on tunnistettava tekstin semanttinen sisältö ja koodattava se strukturoituun muotoon lisäämällä tekstisegmentteihin huomautuksia. GATE:tä käytetään yhdessä NLTK :n , R:n ja RapidMinerin kanssa [2] . Järjestelmää käytetään tiedon poimimiseen , manuaaliseen ja automaattiseen semanttiseen merkintään, viiteanalyysiin , ontologioiden kanssa työskentelyyn (esim. WordNet), koneoppimiseen (Weka, RASP, MAXENT, SVM Light), blogiviestien kulun analysointiin (esim. Twitter) [3] .

GATE-työkaluperheeseen kuuluvat: GATE Developer, GATE Mímir, GATE Cloud (suurten kieliprojektien työskentelyyn), GATE Teamware (palvelimen optimointi yhteiskäyttöistä tekstimerkintää varten), GATE Embedded (objektikirjasto) [4] .

GATE:n taustalla on laaja kehittäjien, käyttäjien, opettajien, opiskelijoiden ja tutkijoiden yhteisö. Käytetään kaupallisissa ja tutkimusprojekteissa suuryrityksissä, tutkimuslaboratorioissa ja yliopistoissa sekä pienissä ja keskisuurissa kaupallisissa yrityksissä ympäri maailmaa. GATE:tä sovelletaan useilla tieteenaloilla, jotka liittyvät laskennalliseen lingvistiikkaan , luonnollisen kielen käsittelyyn , kieliprosessien mallintamiseen, laskennalliseen biologiaan ja lääketieteeseen [5] . GATE:tä käyttävät projektit: ForgetIT (UK), National Archives (UK), EMILLE (UK), myGRID Arkistoitu 29. syyskuuta 2013 Wayback Machinessa (UK), AKT (UK), KIT Semantic Platform , Ontotext (Bulgaria), MeManage  (linkki ei saatavilla) (Saksa), Med Dictate (Kanada), IE Denso (Japani) [6] .

Arkkitehtuuri ja perustoiminnot

GATE-arkkitehtuuri koostuu toisiinsa liittyvistä komponenteista: ohjelmiston "kappaleista", joissa on hyvin määritellyt rajapinnat, joita voidaan käyttää useissa eri yhteyksissä. GATE toteuttaa valmiita ratkaisuja tokenointiin, taggaukseen, tekstin jakamiseen lauseiksi (jakaja), nimettyjen entiteettien purkamiseen , koneoppimiseen . Komponentit on jaettu kolmeen luokkaan toiminnan mukaan:

Seuraavia asiakirjamuotoja tuetaan: Pelkkä teksti, HTML, SGML, XML, RTF, sähköposti, PDF (jotkut asiakirjat), Microsoft Office (jotkut tiedostomuodot), OpenOffice (jotkut muodot), UIMA CAS, CoNLL/IOB. Asiakirjamuotojen käsittelyssä GATE:ssä on useita erityisominaisuuksia [7] . GATEssa on sisäänrakennettuja erilaisia ​​työkaluja Unicoden kanssa työskentelyyn. Tuetut kielet: Englanti (oletus), espanja, kiina, arabia, bulgaria, ranska, saksa, hindi, italia, Cebuano, romania, venäjä.

Kun ohjelma käynnistetään, sen pääikkunassa on neljä päävalikkokohtaa: Sovellukset, Kieliresurssit, Käsittelyresurssit, Tietovarastot.

Sovellukset

Ohjain ja siihen liittyvät tekstinkäsittelyohjelmat (Processing Resources). Määritellyt ja tallennetut tekstinkäsittelyprosessit voidaan soveltaa uudelleen yhteen asiakirjaan tai tekstikorpukseen. Tämä varmistaa luotettavan tekstinkäsittelyn ja säästää aikaa.

Kieliresurssit (LR)

Sisältää kolmenlaisia ​​tietoja: asiakirjoja, korpusia ja huomautuskaavioita.

Processing Resources (PR)

Ohjelmat tekstinkäsittelyyn. GATE:ssä resursseja käytetään merkintöjen automaattiseen luomiseen ja hallintaan. PR:n avulla voit lisätä tai muuttaa asiakirjamerkintöjä. Uusi PR luodaan samalla tavalla kuin LR. PR:tä luotaessa asetetaan parametreja, joita on kahta tyyppiä: alustusparametrit ja käynnistysparametrit. Ensimmäinen on asetettava, kun resurssi luodaan, jälkimmäinen juuri ennen kuin se käynnistetään ohjaimesta. Ohjaimet ohjaavat PR:n toimintaa. He ovat vastuussa PR:n soveltamisjärjestyksestä ja PR:n vuorovaikutuksesta LR:n kanssa. Ohjainten päätyypit:

Pipeline- ja Corpus Pipeline -työskentelyn periaatteet ovat samanlaiset: luodaan uusi ohjain (klikkaa hiiren oikealla painikkeella Sovellukset > Uusi > ohjaimen nimi), PR:t valitaan vasemmalla olevasta listasta ja asennetaan käyttäjän määrittelemässä järjestyksessä. Määritä kohdeasiakirja, jos kyseessä on Pipeline, kohdekorpus, jos kyseessä on Corpus Pipeline, parametrit PR:lle on määritelty. Suorituksen käynnistämisen jälkeen ohjain aloittaa peräkkäisen PR:n käynnistämisen valituista asiakirjoista käyttäjän määrittelemässä järjestyksessä.

Ohjaimen konfiguraatiot (PR + asetukset) voidaan tallentaa Sovelluksiin (Save application state), mieluiten .gapp-laajennuksella.

CREOLE-resurssipaketti

GATEen integroitu resurssijoukko tunnetaan nimellä CREOLE  - Reusable Objects for Language Engineering. Resurssit tallennetaan CREOLE-tietovarastoihin, jotka sisältävät XML-tiedostoja, Java-arkistokoodeja ja resursseille tarvittavia kirjastoja. Käytetyt resurssit on ryhmitelty liitännäisiksi [8] , jotka on tallennettu tiettyyn osoitteeseen (URL tai tiedosto:/URL). Laajennukset voivat olla perus (ladataan GATE-asennuksen aikana) ja mukautettuja, ne voivat sijaita paikallisella asemalla tai etäpalvelimella. Kun tiedosto ladataan GATEen, se näyttää creole.xml-asetustiedostolta. CREOLE-laajennuksia hallitaan käyttöliittymän kautta käyttämällä Tiedosto > Hallitse CREOLE-laajennuksia > Lisää uusi creole-arkisto -komento. GATE esitetään asetusten (toimintojen) joukkona, jossa käyttäjä yhdistää CREOLE-komponentit: käyttäjä määrittää osoiteluettelon, GATE poimii niistä vastaavat resurssit (PR). Kun laajennus on valittu, sen asetusluettelo tulee näkyviin oikealla olevaan kenttään.

tietovarastot

Tietovarasto. Tarvitaan asiakirjojen/tapausten ja prosessien tallentamiseen myöhempää käyttöä varten. Kaikista tallennustyypeistä käytetään usein Serial DataStorea. säilytyspurkki

  • luo (Tietovarastot > Luo tietovarasto > Serial DataStore > määritä tyhjä kansio ilman kyrillisiä merkkejä ja välilyöntejä polussa),
  • avaa aiemmin luotu (Avaa tietovarasto),
  • tallentaa asiakirjat ja kotelot siihen (Avaa tietovarasto > kaksoisnapsauta asiakirjaa/tapausta),
  • tallentaa asiakirjassa tai korpusissa tehdyt muutokset (Tallenna sen tietovarastoon).

Sovellusten tekstinkäsittelyprosessien sarja voidaan ajaa DataStoren alta. Avaa DataStore, avaa kotelo ja valitse sitten Sovellukset-kohdassa tämä tapaus. Kun Sovellus suoritetaan DataStoren rungossa, jokainen asiakirja ladataan, käsitellään, tallennetaan ja suljetaan. Eli vain yksi asiakirja käsitellään kerrallaan. Tämä ei ylikuormita muistia, mutta prosessi on hitaampi kuin jos kaikki asiakirjat käsiteltäisiin samanaikaisesti.

Asiakirjan merkintä GATE Developerissa

Merkitsemällä asiakirjoja yhtenäisten sääntöjen mukaisesti voit etsiä ja poimia tietoja dokumentista, luoda ontologioita .

GATEssa dokumenttieditorin avaamisen jälkeen näkyviin tulee Annotation Sets- ja Annotations List (tai Annotations List (tai Gate-versiosta riippuen) Annotations) -välilehdet, joissa oikealla olevasta luettelosta voit tarkistaa, minkä tyyppisiä huomautuksia haluat näyttää tai luoda huomautuksia. . Muuta väriä -toiminto on käytettävissä. Kun tekstinpätkä, johon huomautus liitetään, valitaan, näkyviin tulee Annotation Editor -ikkuna, joka sisältää seuraavat kentät ja säätimet:

  1. Merkintätyyppi (jos joitain tyyppejä on jo lisätty, voit valita olemassa olevista)
  2. Attribuutin nimi (tyhjät kentät seuraavan määritteen kohdalla näkyvät automaattisesti)
  3. Attribuutin arvo
  4. Poista huomautus -painike

Merkinnät on ryhmitelty AnnotationSets-ryhmiin. Tämä on kätevä ominaisuus, jonka avulla voit tallentaa useita merkintävaihtoehtoja yhdelle asiakirjalle, esimerkiksi asiantuntijan ja automaattisen. Asiantuntijamerkinnät tallennetaan yleensä AnnotationSet-nimiseen avainsarjaan. Automaattinen merkintä kirjoitetaan yleensä tyhjään AnnotationSet-kirjaan, joka on oletuksena kaikissa asiakirjoissa. Asiakirjoissa ei ole AnnotationSet Key -avainta, sinun on luotava se, kirjoitettava sana Key merkintätyyppien alla olevaan kenttään ja klikattava Uusi.

ANNIE-järjestelmä

GATE:ssä on tekoälyjärjestelmä nimeltä ANNIE (A Nearly-New Information Extraction System), joka sisältää joukon resursseja, jotka tarjoavat tokenoinnin (ANNIE English Tokenizer), POS-taggauksen (ANNIE POS-Tagger), jaettuna lauseisiin (ANNIE Sentence Splitter) , nimetty kokonaisuuden purkaminen (ANNIE Gazetteer ja ANNIE NE Transducer) ja korreferenssianalyysi (ANNIE OrthoMatcher). Kehittäjät: Hamish Cunningham, Valentin Tablan, Diana Maynard, Kalina Bontcheva, Marin Dimitrov ja muut. ANNIE-kehittäjät käyttävät JAPE [9] äärellisiä automatisointialgoritmeja ja säännöllisiä lausekkeita .

ANNIE-komponentit on integroitu sovellukseen, joten alustusta varten klikkaa vastaavaa vihreää kuvaketta GATE-työkalurivillä ja valitse oletusasetuksilla. Kun kaikki resurssit näkyvät Käsittelyresurssit-luettelossa, kaksoisnapsauta avataksesi ANNIE-sovelluksen, joka on Sovellukset-luettelossa. ANNIE-sovelluksen käyttöliittymä on sama kuin muiden sovellusten. Oikealla puolella on järjestetty luettelo resursseista, joita kutsutaan asiakirjassa täsmälleen luettelossa määritetyssä järjestyksessä. ANNIE-sovellus kuuluu Corpus Pipeline -luokkaan, eli sen tulee toimia tekstikorpuksella. ANNIE-järjestelmän toiminnan seurauksena oletusarvoiseen merkintäjoukkoon lisätään useita merkintöjä, mukaan lukien Token (tunnisteet), lause (lauseet), Lookup (sanakirjamerkinnät), henkilö, sijainti, organisaatio. Jos korpus ja asiakirjat olivat DataStoressa ennen ANNIE:n suorittamista, ANNIE hakee asiakirjat yksitellen, käsittelee ne ja palauttaa ne.

Luettelo komponenteista:

  1. PR-luettelossa on Document Reset PR -resurssi , joka poistaa merkinnät asiakirjasta ennen käsittelyä. Resurssissa on setsToKeep-parametri, joka luettelee niiden AnnotationSetsin nimet, joita ei tarvitse tyhjentää. Jos asiakirjassa on manuaalinen merkintä, sinun on varmistettava, että tämän merkinnän sisältävä AnnotationSet on luettelossa, muuten se poistetaan. Oletuksena avainsarja on määritetty siellä.
  2. Tokenizer . Jakaa tekstin tunnisteiksi, nimittäin numeroiksi, välimerkeiksi, sanoiksi, symboleiksi, välilyönneiksi. Jokaiselle tunnukselle määritetään vastaavasti sen tyyppi, Word (orth-attribuutti parametrein: yläalku, allCaps, pienet kirjaimet, mixCaps), numero, symboli, välimerkit, välilyöntimerkki.
  3. Gazetteer . Määrittää nimetyt entiteetit luettelon mukaisesti, eli tekstitiedoston (pelkkä teksti), jossa on listattu nimetyt entiteetit rivi riviltä. Jokainen luettelo sisältää eri joukon nimettyjä kokonaisuuksia: kaupunkeja, organisaatioita, viikonpäiviä jne. vain yhdelle annetuista kielistä. Lists.def-tiedosto tarjoaa pääsyn nimettyjen entiteettien luetteloon. Voit määrittää merkintätyypin yksittäiselle nimettyjen entiteettien luettelolle. Jokaisen luettelon on oltava samassa hakemistossa kuin lists.def-hakemistotiedosto.
  4. Lauseen jakaja . Jakaa tekstin lauseisiin. Jakaja käyttää Gazetteer-lehden lyhenneluetteloa erottaakseen lauseen lopun muista välimerkeistä. Jokaiselle lausunnolle on määritetty "Lause"-merkintä, jonka sisällä on "Split"-merkintä, jonka arvo on "sisäinen" ja "ulkoinen", jotta voidaan erottaa kysyvät, huutavat ja myöntävät lauseet.
  5. Säännöllinen lausekkeen jakaja . Vaihtoehtoinen tapa jakaa tekstiä lauseiksi JAPE-säännöllisten lausekkeiden avulla.
  6. Osa Speech Taggeria . Merkitsee jokaista sanaa ja merkkiä. Siellä on lista käytetyistä tunnisteista. Käyttää sanastoa ja monia sääntöjä, jotka perustuvat Wall Street Journalin runkoon. Sääntöjä ja sanastoa voidaan muuttaa manuaalisesti.
  7. Semanttinen Tagger . Semanttinen huomautus suoritetaan käyttämällä JAPE-selvityssääntöjä (säännöllisiä lausekkeita), jotka käyttävät aiemmissa huomautusvaiheissa saatuja tunnisteita.
  8. Ortografinen vertailu (OrthoMatcher tai 'NameMatcher'). Lisää suhdetyypin nimettyjen entiteettitunnisteiden ja semanttisten tunnisteiden välille. Ei löydä uusia nimettyjä entiteettejä, mutta voi määrittää erisnimelle luokittelemattoman tyypin sanaosumien perusteella.
  9. Pronominaalinen viitearvo . Yhdistetty PR:ään ANNIE-laajennuksen lisäresurssina. Pystyy löytämään lainattua tekstiä, suoraa puhetta, pronomineja (substantiivien vaihto, anafora ), toistoja. Vaatii alustavan merkinnän tunnisteilla: Token (English Tokenizer), Lause (Sentence Splitter), Split (Sentence Splitter), Sijainti (NE Transducer, OrthoMatcher), Henkilö (NE Transducer, OrthoMatcher), Organisaatio (NE Transducer, OrthoMatcher). Analyysi suoritetaan JAPE-muuntimen säännöillä (säännölliset lausekkeet), tilakone on rakennettu etsimään suoran puheen merkkejä ja lainauksia (yksi- ja kaksoislainausmerkit jne.), etsimään pronomineja "it, sen, itse" ja "Minä, minä, minun, minä."

Tekstinkäsittelyn tulosten testaus

GATEssa on sisäänrakennetut työkalut tekstinkäsittelyn tulosten testaamiseen:

  • AnnotationDiff-työkalu suorittaa vertailun samalle asiakirjalle (vertaa-painike GATE-paneelissa).

Parametrit: Avainjoukko (AnnotationSetin nimi merkinnällä #1), Vastausjoukko (AnnotationSetin nimi merkinnällä #2), Tyyppi (vain yhtä tyyppiä voidaan testata kerrallaan), Ominaisuudet (vertaamme attribuutteja). Kun vertailu on aloitettu (Vertaa), AnnotationDiff tulostaa merkintäparit ja merkitsee parin tyypin värillä. Tyypit: Oikea (täysi vastaavuus), Puuttuu (oikeaa huomautusta ei löytynyt), Väärä/Väärä positiivinen (ylimääräinen huomautus löydetty), Osittain oikein (osittain ylittää huomautuksen rajat). Erityyppisten parien lukumäärän mukaan lasketaan vakiomittaukset Precision, Recall ja F.

  • Corpus Quality Assurance (CQA) on suunniteltu laskemaan korpuksen laatumittareita.

Corpus Quality Assurance -välilehti avautuu haluttuun korpus-ikkunaan. CQA kerää tietoja sarjoista, merkinnöistä ja niiden ominaisuuksista. On tarpeen asettaa parametrit, valita arviointityypit (esim. F1.0-pistemäärä tiukka, lievä ja keskimääräinen). Suorita vertailu. Asiakirjatilastot-välilehdellä voit tarkastella asiakirjojen tilastoja sekä avata valitun asiakirjan välittömästi tai tarkastella sen AnnotationDiff-kuvaa. Testitulokset voidaan viedä HTML-muotoon.

GATE Mimir

GATE Mímir on avoimen lähdekoodin hakukone, jota isännöidään SourceForgessa ja jota jaetaan GNU Lesser General Public License 3.0 -lisenssillä. GATE Mímir tarjoaa tukea kielellisen ja semanttisen tiedon indeksointiin ja etsimiseen sovelluksista, joissa on valtavia kielitietokantoja. GATE Mímir tarjoaa mahdollisuuden etsiä tietoa tekstistä, huomautuksista, semanttisista ontologioista ja semanttisista metatiedoista käyttämällä mielivaltaisia ​​tekstin, rakennetietojen ja SPARQL-yhdistelmiä. Kehittäjät eivät tarjoa valmiita pakattuja tuotteita, mutta tarjoavat lähteiden lataamista ja omien tiedostojen kokoamista. GATE Mímir -käyttöopas [10] , käyttöesimerkkejä [11] tarjotaan , uusimmista julkaisuversioista on saatavilla koko lähdepuun arkistot [12] .

Katso myös

Muistiinpanot

  1. tao , s. 5.
  2. Grimes, 2009 .
  3. TwitIE, 2013 .
  4. tao , s. 6.
  5. BiomedicalGate, 2013 .
  6. Projektit .
  7. GATE Käyttöopas , s. 93.
  8. Luettelo GATE-laajennuksista .
  9. JAPE-osio .
  10. Mimir .
  11. MimirEsimerkkejä .
  12. Mímir lähde .

Kirjallisuus

Linkit