Tiedonhaku

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 25. maaliskuuta 2019 tarkistetusta versiosta . tarkastukset vaativat 12 muokkausta .

Tiedonhaku on prosessi , jossa etsitään informaatiotarpeita tyydyttävää jäsentämätöntä dokumenttitietoa [ 1 ] ja tämän haun tiede .

Historia

Sanan "tiedonhaku" otti ensimmäisen kerran käyttöön Calvin Muers vuonna 1948 väitöskirjassaan, jota on julkaistu ja käytetty kirjallisuudessa vuodesta 1950 lähtien .

Aluksi automatisoituja IP-järjestelmiä tai tiedonhakujärjestelmiä (IPS) käytettiin vain tieteellisen tiedon ja kirjallisuuden etsimiseen. Monet yliopistot ja julkiset kirjastot ovat alkaneet käyttää IRS:ää tarjotakseen pääsyn kirjoihin, lehtiin ja muihin asiakirjoihin. IPS yleistyi Internetin tultua ja World Wide Webin kehittymiseen . Venäjänkielisten käyttäjien keskuudessa suosituimmat [2] hakukoneet ovat Yandex , Google .

Tiedonhaku prosessina

Tiedonhaku on prosessi, jossa tietystä asiakirjoista ( teksteistä ) tunnistetaan kaikki ne, jotka on omistettu tietylle aiheelle (aiheelle), täyttävät ennalta määrätyn hakuehdon ( pyynnön ) tai sisältävät tarpeelliset (tietotarpeita vastaavat) faktat , tiedot , dataa .

Hakuprosessi sisältää joukon toimintoja, joiden tarkoituksena on tiedon kerääminen, käsittely ja toimittaminen.

Yleensä tiedonhaku koostuu neljästä vaiheesta:

tietotarpeiden määrittäminen (selvitys) ja tietopyynnön muotoilu;
tietotaulukoiden (lähteiden) mahdollisten haltijoiden kokonaisuuden määrittäminen;
poimitaan informaatio tunnistetuista tietoryhmistä;
tutustuminen saatuihin tietoihin ja hakutulosten arviointi.

Hakutyypit

Koko tekstihaku - etsi asiakirjan koko sisällöstä. Esimerkki kokotekstihausta on mikä tahansa Internet-hakukone, esimerkiksi www.yandex.ru , www.google.com . Yleensä kokotekstihauissa käytetään valmiita indeksejä hakujen nopeuttamiseksi . Yleisin kokotekstihakuindeksien tekniikka ovat käänteiset indeksit .

Haku metatietojen perusteella on hakua tietyillä järjestelmän tukemilla asiakirjamääritteillä - asiakirjan otsikko, luontipäivämäärä, koko, tekijä jne. Esimerkki hausta attribuuttien perusteella on hakuikkuna tiedostojärjestelmässä (esimerkiksi MS Windows ).

Kuvahaku - Hae kuvan sisällön perusteella. Hakukone tunnistaa kuvan sisällön (käyttäjän lataaman tai kuvan URL-osoitteen lisäämän). Hakutuloksissa käyttäjä saa samanlaisia kuvia. Näin hakukoneet toimivat: Polar Rose , Picollator jne.

Hakutavat

Osoitehaku

Asiakirjojen etsintä pyynnössä määritellyistä puhtaasti muodollisista syistä.
Toteutukseen vaaditaan seuraavat ehdot:

Onko asiakirjalla tarkka osoite?
Asiakirjojen tiukan järjestelyn varmistaminen tallennuslaitteessa tai järjestelmämuistissa.

Asiakirjojen osoitteet voivat olla verkkopalvelimien ja verkkosivujen osoitteita ja bibliografisen tietueen elementtejä sekä arkistoon tallennettujen asiakirjojen osoitteita.

Semanttinen haku

Asiakirjojen etsiminen sisällön perusteella .

Ehdot:

Asiakirjojen ja kyselyiden sisällön kääntäminen luonnollisesta kielestä tiedonhakukielelle ja hakukuvien kokoaminen asiakirjasta ja kyselystä.
Hakukuvauksen laatiminen, joka määrittää lisähakuehdon.

Pohjimmainen ero osoitehaun ja semanttisen haun välillä on se, että osoitehaussa dokumenttia pidetään muodollisesti objektina, kun taas semanttisessa haussa sisällöltään.

Semanttinen haku löytää paljon asiakirjoja määrittämättä osoitteita.

Tämä on olennainen ero luetteloiden ja arkistokaappien välillä .

Kirjasto - kokoelma bibliografisia tietueita ilman osoitteita.

Dokumenttihaku

Prosessi, jossa etsitään käyttäjän pyyntöä vastaavien ensisijaisten asiakirjojen tai toissijaisten asiakirjojen tietokannan tiedonhakujärjestelmän varastosta .

Kolmen tyyppistä dokumenttihakua:

Kirjasto, jonka tarkoituksena on löytää perusasiakirjoja.
Bibliografinen, jonka tarkoituksena on löytää tietoa asiakirjoista, jotka esitetään bibliografisten tietueiden muodossa.
Arkistohaku [3]

Asiahaku

Tietopyyntöä vastaavien tosiasioiden etsimisprosessi.
Faktatieto sisältää tiedot, jotka on poimittu asiakirjoista, sekä ensisijaisista että toissijaisista, ja saatu suoraan niiden esiintymislähteistä.

Niitä on kahta tyyppiä:

Dokumentaarinen fakta, tarkoittaa faktaa sisältävien tekstin katkelmien etsimistä asiakirjoista.
Fakta (faktuaalinen kuvaus), johon liittyy uusien faktakuvausten luominen hakuprosessissa löydettyjen faktatietojen loogisella käsittelyllä.

Tiedonhaku tieteenä

Tiedonhaku on laaja monitieteinen tieteenala, joka sijaitsee kognitiivisen psykologian , tietojenkäsittelytieteen , tietosuunnittelun , kielitieteen , semiotiikan ja kirjastotieteen risteyksessä .

Tiedonhaku on prosessi, jossa tunnistetaan tietueita tietotaulukosta, jotka täyttävät ennalta määrätyn hakuehdon tai kyselyn.

IP harkitsee tiedon etsimistä asiakirjoista , asiakirjojen etsimistä itse, metatietojen poimimista asiakirjoista, tekstin, kuvien, videon ja äänen etsimistä paikallisista relaatiotietokannoista, hypertekstitietokannoista , kuten Internetistä ja paikallisista intranetjärjestelmistä .

Tiedonhaun, asiakirjanhaun, tiedonhaun ja tekstinhaun käsitteet ovat hämmentyneet. Jokaisella näistä tutkimusalueista on kuitenkin omat metodologiansa, käytäntönsä ja kirjallisuutensa.

IP on tällä hetkellä nopeasti kehittyvä tieteenala, jonka suosio johtuu tietomäärien eksponentiaalisesta kasvusta erityisesti Internetissä . IP:lle on omistettu laaja kirjallisuus ja monia konferensseja. Yksi tunnetuimmista on TREC , jonka Yhdysvaltain puolustusministeriö järjesti vuonna 1992 yhdessä NIST :n (Institute of Standards and Technology ) kanssa tavoitteenaan vahvistaa tutkimusyhteisöä ja kehittää menetelmiä IP:n laadun arvioimiseksi.

Pyydä ja pyydä objektia

IP-järjestelmistä puhuttaessa he käyttävät termejä request ja request object .

Pyyntö on muodollinen tapa ilmaista järjestelmän käyttäjän tietotarpeet. Hakukyselyn kieltä käytetään ilmaisemaan tiedon tarve , syntaksi vaihtelee järjestelmästä toiseen. Erityisen kyselykielen lisäksi nykyaikaiset hakukoneet mahdollistavat kyselyn kirjoittamisen luonnollisella kielellä .

Pyyntöobjekti on tietokokonaisuus, joka on tallennettu automaattisen hakujärjestelmän tietokantaan. Vaikka yleisin pyyntöobjekti on tekstidokumentti , siinä ei ole perusrajoituksia. Erityisesti on mahdollista etsiä kuvia, musiikkia ja muuta multimediatietoa . Hakuobjektien syöttämistä IPS:ään kutsutaan indeksoinniksi . Läheskään aina, IPS tallentaa kohteen tarkan kopion, usein sen sijaan tallennetaan korvike .

Tiedonhakutehtävät

IP:n keskeinen tehtävä on auttaa käyttäjää tyydyttämään tiedontarpeensa. Koska käyttäjän tietotarpeita on teknisesti vaikea kuvata, ne muotoillaan kyselynä, joka on joukko avainsanoja, jotka kuvaavat käyttäjän etsimää.

Klassinen käyttöliittymäongelma, joka aloitti tämän kentän kehityksen, on kyselyn täyttävien asiakirjojen etsiminen tietyn staattisen dokumenttikokoelman sisällä. Mutta IP-tehtävien luettelo laajenee jatkuvasti ja sisältää nyt:

mallinnusongelmat;
Asiakirjojen luokitus ;
Asiakirjojen suodatus ;
Asiakirjojen klusterointi ;
Hakukonearkkitehtuurien ja käyttöliittymien suunnittelu ;
Tietojen, erityisesti huomautusten ja asiakirjojen yhteenvedon , poimiminen ;
Kyselykielet jne.

Lisäksi jotkin tehtävät asetetaan IP-koneiden edelle luonnollisten kielten käsittelyä varten , mikä sisältää morfologisen analyysin , leksikaalisen polysemian ratkaisun ja niin edelleen.

Tehokkuusluokitukset

On monia tapoja arvioida, kuinka hyvin IPS:n löytämät asiakirjat vastaavat kyselyä. Valitettavasti kyselyn vastaavuusasteen tai toisin sanoen osuvuuden käsite on subjektiivinen käsite, ja vastaavuuden aste riippuu tietystä henkilöstä, joka arvioi kyselyn tuloksia.

Tarkkuus

Se määritellään IPS:n löytämien asiaankuuluvien asiakirjojen määrän suhteeksi löydettyjen asiakirjojen kokonaismäärään:

{\mbox{Precision}}={\frac {|D_{{rel}}\cap \ D_{{retr}}|}{|D_{{retr}}|}}

missä on tietokannan asiaankuuluvien asiakirjojen joukko ja järjestelmän löytämien asiakirjojen joukko. $D_{{rel}}$ $D_{{retr}}$

Täydellisyys (muistaa)

Löydettyjen asiaankuuluvien asiakirjojen lukumäärän suhde tietokannan asiaankuuluvien asiakirjojen kokonaismäärään :

{\mbox{Recall}}={\frac {|D_{{rel}}\cap \ D_{{retr}}|}{|D_{{rel}}|}}

missä on tietokannan asiaankuuluvien asiakirjojen joukko ja järjestelmän löytämien asiakirjojen joukko. $D_{{rel}}$ $D_{{retr}}$

Fall-out

Keskeyttäminen kuvaa epäolennaisen resurssin löytämisen todennäköisyyttä ja määritellään löydettyjen epäolennaisten asiakirjojen määrän suhteeksi tietokannan epäolennaisten asiakirjojen kokonaismäärään:

{\mbox{Fall-out}}={\frac {|D_{{nrel}}\cap \ D_{{retr}}|}{|D_{{nrel}}|}}

missä on joukko epäolennaisia asiakirjoja tietokannassa, ja on joukko asiakirjoja, jotka järjestelmä löytää. $D_{{nrel}}$ $D_{{retr}}$

F-measure (F-measure, Van Riesbergenin mitta)

Joskus on hyödyllistä yhdistää tarkkuus ja muistaminen yhdeksi keskiarvoksi. Aritmeettinen keskiarvo ei sovellu tähän tarkoitukseen, koska esimerkiksi hakukoneelle riittää, että se palauttaa kaikki asiakirjat yleensä, jotta varmistetaan yhtä suuri palautus nollan tarkkuudella ja aritmeettinen keskiarvo. tarkkuus ja muistaminen on vähintään 1/2. Harmonisella keskiarvolla ei ole tätä haittaa, koska keskiarvojen suurella erolla se lähestyy niiden minimiä.

Siksi hyvä mittari tarkkuuden ja muistamisen arvioimiseksi yhdessä on F-mitta , joka määritellään tarkkuuden P ja palautuksen R painotetuksi harmoniseksi keskiarvoksi :

F={\frac {1}{\alpha {\frac {1}{P}}+(1-\alpha ){\frac {1}{R}}}},\qquad \alpha \in [0, yksi].

F- mitta kirjoitetaan yleensä muodossa

F={\frac {(\beta ^{2}+1)PR}{\beta ^{2}P+R)),\qquad \beta ^{2}={\frac {(1-\alpha ) }{\alpha )),\quad \beta ^{2}\in [0,\infty ].

Kummassakin tapauksessa F - mitta antaa saman painon tarkkuudelle ja muistamiselle ja sitä kutsutaan tasapainoiseksi tai -mittaksi ( arvo on tapana ilmoittaa alaindeksissä ), sen lauseke on yksinkertaistettu $\alpha = 1/2$ $\beta=1$ $F_{1}$ $\beeta$

F_{1}={\frac {2PR}{P+R}}.

Tasapainoisen F - mitan käyttö ei ole pakollista: tarkkuutta suositaan suuremmalla painolla ja täydellisyydellä enemmän painoa. $0<\beta <1$ $\beta>1$

Katso myös

Muistiinpanot

↑ Manning et al, 2011 , s. 23.
↑ Siirtymät - ANALYZETHIS.RU . Käyttöpäivä: 12. lokakuuta 2013. Arkistoitu alkuperäisestä 14. lokakuuta 2013. (määrätön)
↑ Etsi asiakirjoja tietojen perusteella | Liittovaltion arkistovirasto . archives.ru. Haettu 1. joulukuuta 2019. Arkistoitu alkuperäisestä 2. joulukuuta 2019. (määrätön)

Kirjallisuus

Baeza-Yates R., Ribeiro-Neto B. Nykyaikainen tiedonhaku. - Addison-Wesley, 1999. - ISBN 0-201-39829-X .
Manning C., Raghavan P., Schütze H. Johdatus tiedonhakuun . - Cambridge University Press , 2008. - ISBN 0-521-86571-9 . Käännös: Manning K., Raghavan P., Schütze H. Johdatus tiedonhakuun. - Williams, 2011. - ISBN 978-5-8459-1623-5 .
Lande D. V., Snarsky A. A. , Bezsudnov I. V. Internet: Navigointi monimutkaisissa verkoissa: mallit ja algoritmit . — M.: Librokom (Toimitus URSS), 2009. — 264 s. — ISBN 978-5-397-00497-8 .

Linkit

ru_ir - "Tietohaku" -yhteisö "LiveJournal"
Juri Lifshits. Luentokurssi "Algoritmit Internetiin"
Kuralenok I. E., Nekrestyanov I. S. Katsaus "Tekstihakujärjestelmien arviointi"

Sanakirjat ja tietosanakirjat

Bibliografisissa luetteloissa
BNE : XX535604 BNF : 122132635 GND : 4072803-1 J9U : 987007550614905171 LCCN : sh85066148 NDL : 00575010 NKC : ph163856