Hamshahri-korpus ( persiaksi پیکره همشهری ) on persiankielisten tekstien kokoelma , joka perustuu iranilaisen Hamshahri -sanomalehden sisältöön , joka on yksi ensimmäisistä persiankielisistä verkkojulkaisuista . Alunperin kokosi ja kokosi Ehsan Darrudi DBRG Groupista [1] Teheranin yliopistosta . Myöhemmin Ali Ahmadin [2] johtama ryhmä loi tämän korpuksen pohjalta ensimmäisen tiedonhakutehtäviin soveltuvan persialaisen tekstin tietokannan.
Hamshahri-korpus luotiin skannaamalla uutisartikkeleita Hamshahri-sanomalehden verkkosivuilta ja käsittelemällä sitten HTML-sivuja standarditekstikorpuksen luomiseksi, joka soveltuu tavalliseen tiedonhakuun.
Tämä versio sisälsi yli 160 000 artikkelia, jotka kattoivat seuraavat aiheluokat: politiikka, kaupunkiuutiset, taloustiede, raportit, toimitukset, kirjallisuus, tiede, yhteiskunta, ulkomaiset uutiset, urheilu jne. Asiakirjojen koko vaihtelee lyhyistä uutisista (alle 1 kt) melko pitkiä artikkeleita (noin 140 kt) keskimäärin 1,8 kt.
Korpus on saatavilla useissa latausmuodoissa [2] :
Tämä versio julkaistiin 20. lokakuuta 2008, ja edelliseen verrattuna siinä on useita uusia ominaisuuksia:
Korpus on ladattavissa XML - muodossa .
Korpuslingvistiikka | |
---|---|
Englanninkieliset corporat |
|
Venäjänkieliset corporit |
|
Corpora muilla kielillä |
|
Organisaatiot |