Jäsentäminen

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 25. joulukuuta 2021 tarkistetusta versiosta . tarkastukset vaativat 2 muokkausta .

Kielitieteen ja tietojenkäsittelytieteen syntaktinen analyysi (tai jäsentäminen , slangin jäsentäminen ← Englanninkielinen jäsennys ) on prosessi, jossa verrataan luonnollisen tai muodollisen kielen lineaarista lekseemisarjaa (sanoja, merkkejä) sen muodolliseen kielioppiin . Tuloksena on yleensä jäsennyspuu (syntaksipuu). Yleensä käytetään leksikaalisen analyysin yhteydessä .

Jäsenin ( slangi parser ← englanniksi parser ) on ohjelma tai ohjelman osa, joka suorittaa jäsennyksen.

Jäsennyksen aikana lähdeteksti muunnetaan tietorakenteeksi , yleensä puuksi, joka kuvastaa syöttösekvenssin syntaktista rakennetta ja sopii hyvin jatkokäsittelyyn.

Pääsääntöisesti syntaktisen analyysin tulos on lauseen syntaktinen rakenne, joka esitetään joko riippuvuuspuun muodossa tai komponenttipuun muodossa tai jonkin ensimmäisen ja toisen esitystavan yhdistelmänä .

Laajuus

Kaikki, jolla on " syntaksi ", sopii automaattiseen jäsennykseen.

Ohjelmointikielet - ohjelmointikielten lähdekoodin analyysi käännösprosessissa ( käännös tai tulkinta );
Strukturoitu data - tiedot, kielet niiden kuvaukselle, suunnittelulle jne. Esimerkiksi XML , HTML , CSS , JSON , ini-tiedostot, erikoistuneet määritystiedostot jne.;
Hakemiston luominen hakukoneessa ; _
SQL -kyselyt ( DSL- kieli);
Matemaattiset lausekkeet;
Säännölliset lausekkeet (joita puolestaan voidaan käyttää leksikaalisen analyysin automatisointiin );
Muodolliset kieliopit ;
Kielitiede - luonnolliset kielet. Esimerkiksi konekäännös ja muut tekstigeneraattorit .
Tietojen poimiminen verkkosivuilta - web-kaappaus , on jäsentämisen erikoistapaus [1] .

Algoritmien tyypit

Ylhäältä alas jäsennin ( eng. top-down parser ) - kielioppituotteita laajennetaan aloitusmerkistä alkaen, kunnes vaadittu merkkijono on saatu .
- Rekursiivinen laskeutumismenetelmä
- LL analysaattori
Nouseva jäsentäjä ( eng. bottom-up parser ) - tuotteet palautetaan oikeista osista alkaen tokeneista ja päättyen aloitusmerkkiin.
- LR jäsentäjä
- GLR jäsentäjä

Toipuminen virheistä

Yksinkertaisin tapa vastata virheelliseen syöttömerkkijonoon on lopettaa jäsentäminen ja näyttää virheilmoitus. Usein on kuitenkin hyödyllistä löytää mahdollisimman monta virhettä yhdellä jäsennysyrityksellä. Näin käyttäytyvät yleisimpien ohjelmointikielten kääntäjät.

Jäsentimen virhekäsittelijällä on siis seuraavat tehtävät:

sen on ilmoitettava selkeästi ja tarkasti virheiden esiintymisestä;
sen pitäisi tarjota nopea virheenpalautus, jotta voit jatkaa muiden virheiden etsimistä;
sen ei pitäisi merkittävästi hidastaa kelvollisen syötemerkkijonon käsittelyä.

Tunnetuimmat virheenpalautusstrategiat kuvataan alla.

Palautuminen paniikkitilassa

Kun virhe havaitaan, jäsentäjä ohittaa syöttötunnisteet yksi kerrallaan, kunnes löydetään yksi erityisesti määritellyistä synkronointivalteista . Yleensä tällaiset merkit ovat erottimia, esimerkiksi: ; , ) tai } . Analysoitavan kielen kehittäjän on määritettävä synkronointitunnisteiden joukko. Tällä palautusstrategialla saattaa olla, että huomattava määrä merkkejä ohitetaan tarkistamatta lisävirheitä. Tämä palautusstrategia on helpoin toteuttaa.

Fraasitason palautus

Joskus, kun virhe havaitaan, jäsentäjä voi suorittaa paikallisen korjauksen tulovirralle, jotta se voi jatkua. Esimerkiksi ennen puolipistettä, joka erottaa eri käskyt ohjelmointikielessä, jäsentäjä voi sulkea sulut, joita ei ole vielä suljettu. Tämä on monimutkaisempi suunnitella ja toteuttaa, mutta joissain tilanteissa se voi toimia huomattavasti paremmin kuin paniikkipalautuminen. Luonnollisesti tämä strategia on tehoton, jos todellinen virhe tapahtui ennen kuin jäsentäjä havaitsi virheen.

Bugituotannot

Yleisimpien virheiden tunteminen mahdollistaa kielen kieliopin laajentamisen virheellisiä konstruktioita luovilla tuotannoilla. Kun tällaiset tuotannot käynnistyvät, virhe kirjataan, mutta jäsentäjä jatkaa toimintaansa normaalisti.

Analyzer kehitystyökalut

Kääntäjien erilliset kehitys- ja rakentamisvaiheet voidaan automatisoida ja suorittaa tietokoneella.

Tässä on joitain tunnetuimmista analysaattoreiden kehitystyökaluista [2] :

ANTLR - jäsentäjägeneraattori
Bison - jäsentäjägeneraattori
Coco/R - skanneri ja jäsentäjägeneraattori
GOLD - jäsentäjä
JavaCC - Java - jäsennysgeneraattori
Lemon Parser - jäsentäjägeneraattori
Lex - skannerigeneraattori
Ragel - Inline Parser Generator
Spirit Parser Framework - jäsentäjägeneraattori
SYNTAKSI
Syntaksimääritelmän formalismi
UltraGram
VivaCore
Yacc - jäsentäjägeneraattori

Katso myös jäsennysgeneraattoreiden vertailu .

Katso myös

Muistiinpanot

↑ Tim Jones M. Tietojen poimiminen Internetistä Ruby-kielellä. (22. toukokuuta 2014). Haettu 13. joulukuuta 2019. Arkistoitu alkuperäisestä 13. joulukuuta 2019. (määrätön)
↑ Ela Kumar. luonnollisen kielen käsittely. - IK International Pvt Ltd, 2011. - s. 100. - ISBN 978-93-80578-77-4 .

Kirjallisuus

A. Aho , J. Ullman. Jäsentämisen, kääntämisen ja kokoamisen teoria. T. 1. Per. englannista. V. N. Agafonov, toim. V. M. Kurochkina . M.: Mir, 1978. 614 s.
A. Aho, J. Ullman. Jäsentämisen, kääntämisen ja kokoamisen teoria. T. 2. Per. englannista. A. N. Biryukov ja V. A. Serebryakov , toim. V. M. Kurochkina. M.: Mir, 1978. 487 s.
Alfred W. Aho, Monica S. Lam, Ravi Seti, Jeffrey D. Ullman. Kääntäjät: periaatteet, tekniikat ja työkalut = kääntäjät: periaatteet, tekniikat ja työkalut. - 2. painos - M .: Williams , 2008. - ISBN 978-5-8459-1349-4 .
Robin Hunter. Kääntäjän peruskäsitteet = Kääntäjien olemus. - M . : "Williams" , 2002. - S. 256. - ISBN 5-8459-0360-2 .

Linkit

Koodin käännös (venäjäksi)