Stokastinen yhteydetön kielioppi

Stokastinen kontekstiton kielioppi ( SCS , myös probabilistic kontekstiton kielioppi , VCS ) on yhteydetön kielioppi , jossa jokainen päättelysääntö vastaa todennäköisyyttä. Päätelmän tekemisen todennäköisyys määritellään sen käyttämien päättelysääntöjen todennäköisyyksien tulona, ​​joten jotkut päätelmät sopivat paremmin stokastisen kieliopin kanssa kuin toiset. SCF-kieliopit laajentavat CF-kielioppeja samalla tavalla kuin piilotetut Markov-mallit laajentavat tavallisia kielioppeja. SCS-kielioppeja käytetään laajasti tieteessä: luonnollisen kielen käsittelystä RNA -molekyylien tutkimukseen . SCS-kieliopit ovat painotettujen yhteydettömien kielioppien erikoismuoto .

Tekniikat

Kok-Younger-Kasami-algoritmin muunnelma löytää Viterbi-jäsennyksen tietylle merkkijonolle ja SCS-kieliopille. Viterbi-jäsennys on SCS-kieliopissa todennäköisin johdannainen merkkijonosta.

Sisä-ulko-algoritmeja, jotka ovat analogisia edestakaisin algoritmien kanssa, voidaan käyttää laskemaan kaikkien tiettyä merkkijonoa vastaavien päätelmien kokonaistodennäköisyys tietystä SCF-kieliopista. Tämä vastaa todennäköisyyttä, että SCF-kielioppi generoi tietyn merkkijonon, ja se on intuitiivisesti mitta tietyn merkkijonon yhdenmukaisuudesta tietyn kieliopin kanssa.

Sisä-ulko-algoritmeja voidaan käyttää myös laskemaan todennäköisyyksiä, että tiettyä päättelysääntöä käytetään mielivaltaisessa päätelmässä tietylle merkkijonolle. Tätä käytetään soveltamaan EM-algoritmia SCS-kieliopin suurimman todennäköisyyden todennäköisyyksien saamiseksi SCS-kieliopin tarvitsemien opetusjaksojen perusteella. Algoritmi on samanlainen kuin piilotetuissa Markov-malleissa käytetty.

Sovellukset

Luonnollisen kielen käsittely

Kontekstittomat kieliopit luotiin alun perin luonnollisten kielten mallintamiseksi. Jotkut tutkijat ovat laajentaneet tätä ajatusta soveltamalla SCS-kielioppia.

Tässä on esimerkki SCS-kieliopista, jossa on kaksi sääntöä. Jokaista sääntöä edeltää todennäköisyys, joka kuvastaa sen soveltamisen suhteellista tiheyttä.

0.7VP→VNP 0,3 VP → V NP NP

Tämän kieliopin perusteella voimme laskea VP:stä luotujen NP:iden odotetun määrän: 0,7 x 1 + 0,3 x 2 = 1,3.

Erityisesti jotkin puheentunnistusjärjestelmät käyttävät SCF-kielioppeja parantaakseen todennäköisyyden approksimaatiota ja siten tunnistuksen laatua.

Viime aikoina todennäköisyyspohjaisilla CFG:illä on ollut rooli esteettömyyshierarkian selittämisessä, mikä yrittää osoittaa, miksi jotkut rakenteet ovat vaikeampia ymmärtää kuin toiset.

Kävi ilmi, että jos todennäköisemmistä rakenteista on olemassa todennäköisyystietoa, on mahdollista laskea näiden rakenteiden informaatioentropia. Jos syntaksin havaintomekanismi perustuu informaatioteorian käsitteisiin, niin se voi hyvinkin käyttää jotain videoneuvottelujen kielioppien kaltaista. [yksi]

RNA

CS-kielioppeja käytetään RNA:n sekundaarirakenteen mallintamiseen [2] [3] . Toissijainen rakenne sisältää komplementaarisia nukleotideja yhdessä RNA-molekyylissä. Tämä pariutuminen on biologisesti tärkeä RNA-molekyylin asianmukaisen toiminnan kannalta. Suurin osa näistä pareista voidaan edustaa CF-kieliopilla (poikkeuksena pseudoknot).

Tarkastellaan esimerkiksi seuraavaa kielioppia, jossa a, c, g ja u edustavat nukleotideja ja S on aloitusmerkki:

S → aSu | cSg | gSc | usa

Tämä yksinkertainen CFG edustaa RNA-molekyyliä, joka koostuu vain kahdesta täysin komplementaarisesta alueesta, joissa sallitaan vain kanoniset komplementaariset parit (esim. AU ja CG).

Lisäämällä todennäköisyyksiä monimutkaisempiin CFG:ihin on mahdollista mallintaa emäksiä tai emäspareja, jotka vastaavat enemmän tai vähemmän RNA-molekyylin odotettua muotoa. SCS-kielioppeja käytetään Rfam-tietokannan RNA-geeniperheiden sekvenssien mallintamiseen ja näiden perheiden todennäköisten jäsenten genomisekvenssien etsimiseen. SCS-kielioppeja on käytetty myös RNA-geenien etsimiseen vertailevan genomiikan avulla. Tässä työssä tutkittiin kahden sukua olevan organismin potentiaalisten RNA-geenien homologeja käyttämällä SCS-kieliopin lähestymistapoja sen määrittämiseksi, säilyikö sekundaarirakenne. Jos näin on, sekvenssi on todennäköisesti RNA-geeni, ja sekundaarirakenne säilyy RNA-geenin toiminnallisia tarpeita varten. On myös osoitettu, että SCS-kieliopit voivat ennustaa RNA-molekyylin sekundaarirakenteen samankaltaisesti kuin olemassa olevat lähestymistavat: tällaisia ​​SCS-kielioppeja käyttää esimerkiksi Stemloc-ohjelma.

Vertailu generatiiviseen kielioppiin

Kun Goldin lause julkaistiin vuonna 1967, väitettiin, että luonnollisten kielten kielioppia ohjaavat deterministiset säännöt, joita ei voida oppia pelkästään positiivisista esimerkeistä. Tämä oli osa 1980-luvulla esiteltyä ja implisiittisesti Chomskyn 1950-luvun varhaisten töiden jälkeen esiteltyä ärsykeköyhyysargumenttia. Muiden argumenttien ohella tämä on johtanut nativistiseen käsitykseen, jonka mukaan kieliopin muodot (mukaan lukien joissakin versioissa täydellinen käsitteellinen sanakirja) ovat juurtuneet syntymästä lähtien. Tätä esitystapaa rajoittavat merkittävästi GB- ja MP-teoriat.

On kuitenkin huomattava, että Goldin tulos oppimiskyvystä voidaan kiertää helposti olettaen, että oppija joko oppii melkein täydellisen likiarvon oikeasta kielestä tai oppii tyypillisiä syötteitä mielivaltaisesti jaettujen sijaan. On todellakin osoitettu, että pelkkä positiivisia esimerkkejä tuottavan panoksen vastaanottaminen puhujalta mielivaltaisesti eikä ennalta määrätyn suunnitelman mukaan johtaa tunnistettavuuteen todennäköisyysrajalla 1. [4] [5] .

Minkä tahansa muodollisen syntaksin ongelmana on, että rakenteeseen voidaan usein soveltaa useampaa kuin yhtä päättelysääntöä, mikä johtaa ristiriitaan. Mitä laajempi kattavuus, sitä suurempi ristiriita on, ja kaikki kielioppitutkijat (Paninista lähtien ) ovat ponnistellut huomattavasti luodakseen etusijajärjestelmän säännöille, jotka ovat yleensä osoittautuneet kumoamattomiksi. Toinen vaikeus liittyy regeneraatioon, joka myös luo virheellisiä rakenteita. Todennäköisyyspohjaiset kieliopit kiertävät nämä ongelmat käyttämällä eri päättelysääntöjen taajuuksia niiden järjestykseen, mikä johtaa "todennäköisimpään" tulkintaan, joka on määritelmän mukaan kumottava, kun annetaan enemmän tietoja. Koska käyttötavat muuttuvat diakroonisesti, nämä todennäköisyyssäännöt voidaan opettaa uudelleen, mikä päivittää kielioppia.

On mahdollista rakentaa todennäköisyyspohjainen kielioppi perinteisestä muodollisesta syntaksista määrittämällä jokaiselle ei-päätteelle jostain jakaumasta otettu todennäköisyys, joka approksoidaan todelliseen dataan. Useimmissa esimerkeissä useista kielistä todennäköisyyspohjaiset kieliopit, jotka säätävät näitä todennäköisyyksiä tietojen perusteella, toimivat paremmin kuin käsin tehdyt kieliopit (vaikka jotkin sääntöihin perustuvat kieliopit ovat tällä hetkellä lähellä VCS-kielioppeja tarkkuudella).

Viime aikoina todennäköisyyspohjaiset kieliopit ovat saaneet jonkin verran subjektiivista validointia. Tiedetään hyvin, että erilaiset syntaktiset rakenteet havaitaan eri monimutkaisesti (esimerkiksi suhteellisten lauseiden saavutettavuushierarkia). Minimalististen kielioppien todennäköisyysversioita on käytetty tiedon entropian laskemiseen, jonka on havaittu korreloivan hyvin psyklingvistisen tiedon kanssa ymmärtämisen ja toiston helppoudesta. [yksi]

Muistiinpanot

  1. 12 John Hale . Epävarmuus lauseen  loppuosasta (uuspr.)  // Kognitiivinen tiede. - 2006. - T. 30 . - S. 643-672 . - doi : 10.1207/s15516709cog0000_64 .
  2. Durbin, Eddy, Krogh, Mitchison, Biologinen sekvenssianalyysi, Cambridge University Press, 1998. Tämä bioinformatiikan oppikirja sisältää helppokäyttöisen johdannon SCFG:iden käyttöön RNA:n mallintamiseen sekä tämän sovelluksen historian vuoteen 1998 asti.
  3. Sean R. Eddy ja Richard Durbin (1994), "RNA-sekvenssianalyysi käyttäen kovarianssimalleja", Nucleic Acids Research , 22 (11): 2079-88. [1] Arkistoitu 30. toukokuuta 2020 Wayback Machinessa
  4. Clark, A. (2001). Valvomaton kielen hankinta: teoria ja käytäntö. tohtorin väitöskirja
  5. Horning, JJ (1969). Tutkimus kieliopillisista päätelmistä. Ph.D. opinnäytetyö, tietojenkäsittelytieteen laitos, Stanfordin yliopisto

Linkit