Tiedonhaku on prosessi , jossa etsitään informaatiotarpeita tyydyttävää jäsentämätöntä dokumenttitietoa [ 1 ] ja tämän haun tiede .
Sanan "tiedonhaku" otti ensimmäisen kerran käyttöön Calvin Muers vuonna 1948 väitöskirjassaan, jota on julkaistu ja käytetty kirjallisuudessa vuodesta 1950 lähtien .
Aluksi automatisoituja IP-järjestelmiä tai tiedonhakujärjestelmiä (IPS) käytettiin vain tieteellisen tiedon ja kirjallisuuden etsimiseen. Monet yliopistot ja julkiset kirjastot ovat alkaneet käyttää IRS:ää tarjotakseen pääsyn kirjoihin, lehtiin ja muihin asiakirjoihin. IPS yleistyi Internetin tultua ja World Wide Webin kehittymiseen . Venäjänkielisten käyttäjien keskuudessa suosituimmat [2] hakukoneet ovat Yandex , Google .
Tiedonhaku on prosessi, jossa tietystä asiakirjoista ( teksteistä ) tunnistetaan kaikki ne, jotka on omistettu tietylle aiheelle (aiheelle), täyttävät ennalta määrätyn hakuehdon ( pyynnön ) tai sisältävät tarpeelliset (tietotarpeita vastaavat) faktat , tiedot , dataa .
Hakuprosessi sisältää joukon toimintoja, joiden tarkoituksena on tiedon kerääminen, käsittely ja toimittaminen.
Yleensä tiedonhaku koostuu neljästä vaiheesta:
Koko tekstihaku - etsi asiakirjan koko sisällöstä. Esimerkki kokotekstihausta on mikä tahansa Internet-hakukone, esimerkiksi www.yandex.ru , www.google.com . Yleensä kokotekstihauissa käytetään valmiita indeksejä hakujen nopeuttamiseksi . Yleisin kokotekstihakuindeksien tekniikka ovat käänteiset indeksit .
Haku metatietojen perusteella on hakua tietyillä järjestelmän tukemilla asiakirjamääritteillä - asiakirjan otsikko, luontipäivämäärä, koko, tekijä jne. Esimerkki hausta attribuuttien perusteella on hakuikkuna tiedostojärjestelmässä (esimerkiksi MS Windows ).
Kuvahaku - Hae kuvan sisällön perusteella. Hakukone tunnistaa kuvan sisällön (käyttäjän lataaman tai kuvan URL-osoitteen lisäämän). Hakutuloksissa käyttäjä saa samanlaisia kuvia. Näin hakukoneet toimivat: Polar Rose , Picollator jne.
Asiakirjojen etsintä pyynnössä määritellyistä puhtaasti muodollisista syistä.
Toteutukseen vaaditaan seuraavat ehdot:
Asiakirjojen osoitteet voivat olla verkkopalvelimien ja verkkosivujen osoitteita ja bibliografisen tietueen elementtejä sekä arkistoon tallennettujen asiakirjojen osoitteita.
Asiakirjojen etsiminen sisällön perusteella .
Ehdot:
Pohjimmainen ero osoitehaun ja semanttisen haun välillä on se, että osoitehaussa dokumenttia pidetään muodollisesti objektina, kun taas semanttisessa haussa sisällöltään.
Semanttinen haku löytää paljon asiakirjoja määrittämättä osoitteita.
Tämä on olennainen ero luetteloiden ja arkistokaappien välillä .
Kirjasto - kokoelma bibliografisia tietueita ilman osoitteita.
Prosessi, jossa etsitään käyttäjän pyyntöä vastaavien ensisijaisten asiakirjojen tai toissijaisten asiakirjojen tietokannan tiedonhakujärjestelmän varastosta .
Kolmen tyyppistä dokumenttihakua:
Tietopyyntöä vastaavien tosiasioiden etsimisprosessi.
Faktatieto sisältää tiedot, jotka on poimittu asiakirjoista, sekä ensisijaisista että toissijaisista, ja saatu suoraan niiden esiintymislähteistä.
Niitä on kahta tyyppiä:
Tiedonhaku on laaja monitieteinen tieteenala, joka sijaitsee kognitiivisen psykologian , tietojenkäsittelytieteen , tietosuunnittelun , kielitieteen , semiotiikan ja kirjastotieteen risteyksessä .
Tiedonhaku on prosessi, jossa tunnistetaan tietueita tietotaulukosta, jotka täyttävät ennalta määrätyn hakuehdon tai kyselyn.
IP harkitsee tiedon etsimistä asiakirjoista , asiakirjojen etsimistä itse, metatietojen poimimista asiakirjoista, tekstin, kuvien, videon ja äänen etsimistä paikallisista relaatiotietokannoista, hypertekstitietokannoista , kuten Internetistä ja paikallisista intranetjärjestelmistä .
Tiedonhaun, asiakirjanhaun, tiedonhaun ja tekstinhaun käsitteet ovat hämmentyneet. Jokaisella näistä tutkimusalueista on kuitenkin omat metodologiansa, käytäntönsä ja kirjallisuutensa.
IP on tällä hetkellä nopeasti kehittyvä tieteenala, jonka suosio johtuu tietomäärien eksponentiaalisesta kasvusta erityisesti Internetissä . IP:lle on omistettu laaja kirjallisuus ja monia konferensseja. Yksi tunnetuimmista on TREC , jonka Yhdysvaltain puolustusministeriö järjesti vuonna 1992 yhdessä NIST :n (Institute of Standards and Technology ) kanssa tavoitteenaan vahvistaa tutkimusyhteisöä ja kehittää menetelmiä IP:n laadun arvioimiseksi.
IP-järjestelmistä puhuttaessa he käyttävät termejä request ja request object .
Pyyntö on muodollinen tapa ilmaista järjestelmän käyttäjän tietotarpeet. Hakukyselyn kieltä käytetään ilmaisemaan tiedon tarve , syntaksi vaihtelee järjestelmästä toiseen. Erityisen kyselykielen lisäksi nykyaikaiset hakukoneet mahdollistavat kyselyn kirjoittamisen luonnollisella kielellä .
Pyyntöobjekti on tietokokonaisuus, joka on tallennettu automaattisen hakujärjestelmän tietokantaan. Vaikka yleisin pyyntöobjekti on tekstidokumentti , siinä ei ole perusrajoituksia. Erityisesti on mahdollista etsiä kuvia, musiikkia ja muuta multimediatietoa . Hakuobjektien syöttämistä IPS:ään kutsutaan indeksoinniksi . Läheskään aina, IPS tallentaa kohteen tarkan kopion, usein sen sijaan tallennetaan korvike .
IP:n keskeinen tehtävä on auttaa käyttäjää tyydyttämään tiedontarpeensa. Koska käyttäjän tietotarpeita on teknisesti vaikea kuvata, ne muotoillaan kyselynä, joka on joukko avainsanoja, jotka kuvaavat käyttäjän etsimää.
Klassinen käyttöliittymäongelma, joka aloitti tämän kentän kehityksen, on kyselyn täyttävien asiakirjojen etsiminen tietyn staattisen dokumenttikokoelman sisällä. Mutta IP-tehtävien luettelo laajenee jatkuvasti ja sisältää nyt:
Lisäksi jotkin tehtävät asetetaan IP-koneiden edelle luonnollisten kielten käsittelyä varten , mikä sisältää morfologisen analyysin , leksikaalisen polysemian ratkaisun ja niin edelleen.
On monia tapoja arvioida, kuinka hyvin IPS:n löytämät asiakirjat vastaavat kyselyä. Valitettavasti kyselyn vastaavuusasteen tai toisin sanoen osuvuuden käsite on subjektiivinen käsite, ja vastaavuuden aste riippuu tietystä henkilöstä, joka arvioi kyselyn tuloksia.
Se määritellään IPS:n löytämien asiaankuuluvien asiakirjojen määrän suhteeksi löydettyjen asiakirjojen kokonaismäärään:
,missä on tietokannan asiaankuuluvien asiakirjojen joukko ja järjestelmän löytämien asiakirjojen joukko.
Löydettyjen asiaankuuluvien asiakirjojen lukumäärän suhde tietokannan asiaankuuluvien asiakirjojen kokonaismäärään :
,missä on tietokannan asiaankuuluvien asiakirjojen joukko ja järjestelmän löytämien asiakirjojen joukko.
Keskeyttäminen kuvaa epäolennaisen resurssin löytämisen todennäköisyyttä ja määritellään löydettyjen epäolennaisten asiakirjojen määrän suhteeksi tietokannan epäolennaisten asiakirjojen kokonaismäärään:
,missä on joukko epäolennaisia asiakirjoja tietokannassa, ja on joukko asiakirjoja, jotka järjestelmä löytää.
Joskus on hyödyllistä yhdistää tarkkuus ja muistaminen yhdeksi keskiarvoksi. Aritmeettinen keskiarvo ei sovellu tähän tarkoitukseen, koska esimerkiksi hakukoneelle riittää, että se palauttaa kaikki asiakirjat yleensä, jotta varmistetaan yhtä suuri palautus nollan tarkkuudella ja aritmeettinen keskiarvo. tarkkuus ja muistaminen on vähintään 1/2. Harmonisella keskiarvolla ei ole tätä haittaa, koska keskiarvojen suurella erolla se lähestyy niiden minimiä.
Siksi hyvä mittari tarkkuuden ja muistamisen arvioimiseksi yhdessä on F-mitta , joka määritellään tarkkuuden P ja palautuksen R painotetuksi harmoniseksi keskiarvoksi :
F- mitta kirjoitetaan yleensä muodossa
Kummassakin tapauksessa F - mitta antaa saman painon tarkkuudelle ja muistamiselle ja sitä kutsutaan tasapainoiseksi tai -mittaksi ( arvo on tapana ilmoittaa alaindeksissä ), sen lauseke on yksinkertaistettu
Tasapainoisen F - mitan käyttö ei ole pakollista: tarkkuutta suositaan suuremmalla painolla ja täydellisyydellä enemmän painoa.
Sanakirjat ja tietosanakirjat | ||||
---|---|---|---|---|
|