Hamshahrin joukko

Hamshahri-korpus ( persiaksi پیکره همشهری ) on persiankielisten tekstien kokoelma , joka perustuu iranilaisen Hamshahri -sanomalehden sisältöön , joka on yksi ensimmäisistä persiankielisistä verkkojulkaisuista . Alunperin kokosi ja kokosi Ehsan Darrudi DBRG Groupista [1] Teheranin yliopistosta . Myöhemmin Ali Ahmadin [2] johtama ryhmä loi tämän korpuksen pohjalta ensimmäisen tiedonhakutehtäviin soveltuvan persialaisen tekstin tietokannan.

Hamshahri-korpus luotiin skannaamalla uutisartikkeleita Hamshahri-sanomalehden verkkosivuilta ja käsittelemällä sitten HTML-sivuja standarditekstikorpuksen luomiseksi, joka soveltuu tavalliseen tiedonhakuun.

Versio 1.0

Tämä versio sisälsi yli 160 000 artikkelia, jotka kattoivat seuraavat aiheluokat: politiikka, kaupunkiuutiset, taloustiede, raportit, toimitukset, kirjallisuus, tiede, yhteiskunta, ulkomaiset uutiset, urheilu jne. Asiakirjojen koko vaihtelee lyhyistä uutisista (alle 1 kt) melko pitkiä artikkeleita (noin 140 kt) keskimäärin 1,8 kt.

Korpus on saatavilla useissa latausmuodoissa [2] :

Versio 2.0

Tämä versio julkaistiin 20. lokakuuta 2008, ja edelliseen verrattuna siinä on useita uusia ominaisuuksia:

Korpus on ladattavissa XML - muodossa .

Muistiinpanot

  1. DBRG-uutiset arkistoitu 15. toukokuuta 2017 Wayback Machine Database Research Groupissa
  2. 1 2 Hamshahri Arkistoitu 14. toukokuuta 2017 Wayback Machine Database Research Groupissa

Linkit