Syvä verkko

Deep Web (tunnetaan myös nimellä "Invisible Web", "Deep Web", "Deep Internet"; englanniksi  syväverkko ;) on joukko World Wide Web -sivuja, joita hakukoneet eivät indeksoi .

Termi on peräisin sanasta acc. Englanti  näkymätön verkko [1] . Merkittävin osa syväverkkoa on Deep Web ( englanniksi.  deep web, piilotettu web ), joka koostuu verkkotietokantoihin tehtävien kyselyjen avulla dynaamisesti luomista verkkosivuista [2] .

Deep Webin käsitettä ei pidä sekoittaa Dark Webin käsitteeseen ( englanninkielisestä dark webistä ), joka viittaa verkkosegmentteihin , vaikka ne ovat yhteydessä yleiseen Internetiin , mutta edellyttävät pääsyyn tiettyjä ohjelmistotyökaluja.  

Ongelman ydin

Syväverkko sisältää verkkosivuja , jotka eivät ole yhteydessä muihin hyperlinkkeihin (esimerkiksi umpikujassa olevat verkkosivut, jotka on dynaamisesti luotu skripteillä itse sivustoilla, pyynnöstä ja joihin suorat linkit eivät johda), sekä sivustoja , jotka ovat vain rekisteröityjen käyttäjien käytettävissä ja web-sivuja vain salasanalla.

Hakukoneet käyttävät erityisiä hakurobotteja , jotka seuraavat hyperlinkkejä ja indeksoivat niiden verkkosivujen sisällön, joilla he ovat löytäneet itsensä, syöttäen sisältönsä ja niihin johtavat hyperlinkit tietokantoihinsa. Kun hakubotti on löytänyt linkkejä muille sivuille indeksoidulta verkkosivulta, se seuraa niitä ja indeksoi jokaisen löydetyn sivun sisällön, löytää uusia hyperlinkkejä ja seuraa niitä indeksointia varten; indeksoitujen sivujen ulkopuolelle johtavien linkkien napsautuksen seurauksena indeksoitujen verkkosivujen määrä kasvaa jatkuvasti. Hakubotti ei pääse sivuille, joille ei ole linkitetty muilta sivuilta, minkä vuoksi näiden sivujen sisältöä ei indeksoida. Tämän seurauksena tavallinen käyttäjä ei pääse niihin tietämättä Deep Webin sivuston tai verkkosivun URL -osoitetta.

Deep Web sisältää myös sivustoja, joiden omistajat vapaaehtoisesti kieltäytyivät indeksoimasta hakukoneita (esimerkiksi käyttämällä "robots.txt"-tiedostoa ), sekä sivustoja ja verkkosivuja, jotka on suojattu kolmansien osapuolten tietojen katselulta. Tällöin on mahdotonta katsoa kokonaan sen sisältöä tai käyttää verkkosivustoa ilman verkkosivun kirjautumistunnusta ja (tai) salasanaa.

Mittakaava

Syväverkon kokoa ei tunneta. On olemassa suhteellisen luotettavia arvioita verkkotietokantoihin johtavien sivustojen kokonaismäärästä: noin 300 000 tällaista sivustoa koko Webissä vuonna 2004 ja noin 14 000 RuNetissä vuonna 2006 [3] [4] .

Deep Web Search

Vuonna 2005 Yahoo! _ otti vakavan askeleen tämän ongelman ratkaisemiseksi. Yhtiö julkaisi hakukoneen "Yahoo! Tilaukset”, joka etsii sivustoja (vielä muutamia), joihin pääsy on avoin vain näiden sivustojen rekisteröidyille jäsenille. Tämä ei kuitenkaan täysin ratkaissut olemassa olevaa ongelmaa. Hakukoneasiantuntijat yrittävät edelleen löytää teknisiä vaihtoehtoja tietokannan sisällön indeksoimiseksi ja yksityisten verkkosivustojen käyttämiseksi.

Yksi suosituista syväverkon datapalveluista on UFOseek , joka alun perin suunniteltu järjestämään paranormaaleja tietoja [5] .

Sisältötyypit

Vaikka tietyn verkkopalvelimen sisältöä ei aina ole mahdollista löytää suoraan indeksointia varten, tällaiselle sivustolle on silti mahdollista päästä (tietokoneen haavoittuvuuksien vuoksi ).

Löytääkseen sisältöä verkosta hakukoneet käyttävät indeksointirobotteja, jotka seuraavat hyperlinkkejä tunnettujen protokollan virtuaalisten porttinumeroiden kautta. Tämä menetelmä on ihanteellinen sisällön löytämiseen World Wide Webistä , mutta se on usein tehoton haettaessa sisältöä syväverkosta. Esimerkiksi Web-indeksointirobotit eivät etsi dynaamisia sivuja, jotka ovat tulosta tietokantakyselyistä, koska samoja kyselyjä on rajoittamaton määrä. On havaittu, että tämä voidaan (osittain) voittaa tarjoamalla linkkejä kyselyn tuloksiin, mutta tämä voi vahingossa kasvattaa syvän verkoston jäsenen suosiota.

On olemassa useita hakukoneita, jotka ovat käyttäneet syväverkkoa. Intute on lopettanut rahoituksensa ja on nyt väliaikainen arkisto heinäkuusta 2011 lähtien. Scirus suljettiin tammikuun 2013 lopussa.

Tutkijat ovat tutkineet, kuinka syväverkko voidaan skannata automaattisesti, mukaan lukien sisältöä, jota voidaan käyttää vain erillisillä ohjelmistoilla, kuten Tor . Vuonna 2001 Sriram Raghavan ja Hector Garcia-Molina (Stanfordin tietojenkäsittelytieteen laitos, Stanfordin yliopisto ) esittelivät piilohakukoneen arkkitehtonisen mallin, joka käytti käyttäjien toimittamia avainsanoja tai kyselyliitännöistä kerättyjä avainsanoja syväverkon kyselyyn ja indeksointiin.

Kaupalliset hakukoneet ovat alkaneet tutkia vaihtoehtoisia menetelmiä syväverkon indeksointiin. Sitemap - protokolla ( Googlen kehittämä ja käyttöönottama ensimmäisen kerran vuonna 2005) ja mod_oai ovat mekanismeja, joiden avulla hakukoneet ja muut sidosryhmät voivat löytää syväverkkoresursseja tietyiltä verkkopalvelimista. Molemmat mekanismit antavat verkkopalvelimille mahdollisuuden isännöidä käytettävissä olevia URL-osoitteita, mikä mahdollistaa sellaisten resurssien automaattisen löytämisen, jotka eivät ole suoraan yhteydessä World Wide Webiin . Googlen syväverkkonavigointijärjestelmä laskee kunkin HTML-lomakkeen näyttökerrat ja lisää tuloksena olevat HTML-sivut Googlen hakukoneen hakemistoon. Tulokset perustuvat 1000 syväverkkosisällön pyyntöön sekunnissa. Tässä järjestelmässä esityksen esilaskenta suoritetaan käyttämällä kolmea algoritmia:

Katso myös

Muistiinpanot

  1. Gary Price, Chris Sherman. Näkymätön verkko: Tietolähteiden paljastaminen, joita hakukoneet eivät näe. - CyberAge Books, 2001 , ISBN 0-910965-51-X .
  2. Denis Shestakov, Natalia Vorontsova (2005). " Syväverkon venäjänkielisen osan rakenne  (pääsemätön linkki) ". Internet Mathematics 2005 , s. 320-341.
  3. Denis Shestakov (2011). " Näytteenotto National Deep Webistä  (linkki ei saatavilla) ". 22. kansainvälisen tietokanta- ja asiantuntijajärjestelmäsovelluksia käsittelevän konferenssin (DEXA) julkaisut, s. 331-340.
  4. Kuinka suuri internet on? . Haettu 30. heinäkuuta 2015. Arkistoitu alkuperäisestä 29. kesäkuuta 2015.
  5. Igor Raikhman, 2013 , s. 118.

Kirjallisuus