Wayback-kone | |
---|---|
| |
URL-osoite | web.archive.org |
Sivuston tyyppi | verkkoarkisto |
Kieli (kielet) | Englanti |
Ohjelmointikieli | Java , Python |
Omistaja | Internet-arkisto |
Työn alku | 24. lokakuuta 2001 |
Maa | |
Mediatiedostot Wikimedia Commonsissa |
Wayback Machine ( englanniksi - "Time Machine") on voittoa tavoittelemattoman kirjaston " Arkisto Internet " ilmainen online-arkisto. Hakurobottien avulla Wayback Machine arkistoi ja asettaa julkisesti saataville suurimman osan "avoimesta" Internetistä [1] . Palvelu lanseerattiin vuonna 1996, mutta se tuli yleisön saataville vasta vuonna 2001. Ensimmäisen 20 olemassaolonsa aikana Wayback Machine luetteloi ja säilytti yli 286 miljardin Web-sivun kokoelman. Arkistoidut tilannekuvat näytetään HTML- , JavaScript- ja CSS -muodossa [2] . Wayback Machineen tallennettujen asiakirjojen ansiosta käyttäjät voivat seurata sivustoilla tapahtuvia muutoksia ja verrata eri versioita muokkauksista [3] . Kesäkuussa 2022 Wayback Machine tarjoaa pääsyn yli 689 miljardille tallennettuun verkkosivulle [4] .
Vuonna 1989 englantilainen tiedemies Tim Berners-Lee loi World Wide Webin - järjestelmän, jonka avulla voit siirtää tietoja Internetiin kytkettyjen tietokoneiden kautta. World Wide Webin leviämisen myötä on kuitenkin tunnistettu kaksi pääongelmaa. Ensimmäinen oli tilan puute kaikkien tietojen tallentamiseen, mikä johti monien asiakirjojen ja verkkosivujen poistamiseen. Toinen ongelma oli, että käyttäjät eivät nähneet verkkosivun alkuperäistä versiota muokkauksen jälkeen (esimerkiksi oikeudellisista syistä). Internet Archive, amerikkalainen digitaalinen kirjasto , voittoa tavoittelematon organisaatio, jonka ohjelmoijat Brewster Cale ja Bruce Galliat perustivat vuonna 1996, yritti ratkaista nämä puutteet. Yhteistyössä Alexa Internetin ( Amazonin verkko-indeksoinnin tytäryhtiö ) kanssa "Arkisto" aloitti kopioiden luomisen ja tallentamisen olemassa olevista sivustoista kehittääkseen "yleistä tiedonsaantia". Järjestö tarjosi ilmaisen yleisön pääsyn digitoituun materiaaliin, kuten verkkosivuihin, kirjoihin, äänitallenteisiin, mukaan lukien live-konsertteja, videoita, kuvia ja ohjelmistoja. Vuodesta 2021 lähtien Internet-arkiston pääkonttori on San Franciscossa , entisessä kristillisessä kirkkorakennuksessa Richmondin alueella . Paikallisen radioaseman Kawl toimittaja vuonna 2019 vertasi arkiston toimistoa roomalaiseen temppeliin [5] [6] [7] . Järjestön tavoitteena on pelastaa Internet sukupuuttoon [8] .
Wayback Machinesta tuli Arkiston kuuluisin projekti. Verkkopalvelu on nimetty 1960-luvun animaatiosarjan The Rocky and Bullwinkle Show aikakoneen mukaan . Se tarjoaa pääsyn yli 550 miljardin verkkosivun digitaaliseen kokoelmaan [3] [9] [10] . Wayback Machine -projekti suunniteltiin ratkaisuksi 404-virheen ongelmaan , mikä tarkoittaa, että palvelin ei löydä tietoja pyydetystä osoitteesta. Tämä johtuu niin sanotusta linkkien häviämisestä – kerran julkaistujen tietojen kasvavasta saavuttamattomuudesta. Esimerkiksi vuonna 1997 verkkosivun keskimääräinen elinikä oli 44 päivää. Vuonna 2003 tämä luku oli 100 päivää. Vuonna 2008 tehty analyysi linkeistä 2 700 digitaaliseen resurssiin, joista suurimmalla osalla ei ollut painettua vastinetta, osoitti, että noin 8 prosenttia linkeistä lakkasi toimimasta vuoden kuluttua. Vuoteen 2011 mennessä, kolmen vuoden kuluttua, 30 prosenttia kokoelman linkeistä katkesi [11] . Alexan integroinnin ansiosta virheilmoituksen nähnyt käyttäjä pääsi sivun arkistoituun versioon selaimeen upotetun työkalupalkin kautta. Jos Wayback Machine -tietokannassa oli kopio sivusta, josta ei ole pääsyä, erityinen painike syttyy. Samaan aikaan käyttäjät voivat antaa selaimelle luvan tarkastella ja rekisteröidä toimintaa - tässä tapauksessa kaikki vieraillut sivustot arkistoitiin portaaliin [12] .
Wayback Machine lanseerattiin toukokuussa 1996, mutta se tuli yleisön saataville vasta vuonna 2001 - ennen sitä kaikki digitaalisille magneettinauhoille tallennettu tieto oli avoinna vain rajatulle määrälle tutkijoita [13] . "Avaamiseen" mennessä arkisto sisälsi yli 10 miljardia arkistoitua sivua [3] . Joulukuuhun 2014 mennessä Wayback Machine ilmoitti säästäneensä 435 miljardia verkkosivua maailmanlaajuisesti [1] . Teknisesti Wayback Machine -ohjelmisto ei ole arkisto, vaan julkinen käyttöliittymä kaikkien arkiston rajoitettuun osaan [14] . Näin ollen Wayback Machinea ei voida pitää organisaation kokoelman hakukoneena, koska se ei tee hakuja toisen suuren virtuaalikirjaston - Open Library - tietokannasta , jonka avulla käyttäjät voivat käyttää ilmaisia digitaalisia kopioita kirjoista, jotka on ladattu ja arkistoitu osana hanke [15] [16 ] .
Wayback Machinen julkaisun myötä Internet-arkistosta on tullut yksi suosituimmista ja tunnistetuimmista online-portaaleista ja johtava verkkoarkistointipalvelu [ 3] [8] . Vuonna 1999 The Archive aloitti kokoelman laajentamisen arkiston verkkosisällön ulkopuolelle tarjotakseen tilaa sekä digitoiduille että alkuperäisille digitaalisille resursseille, mukaan lukien kirjat, ääni, elokuvat, kuvat, asiakirjat, ohjelmistot ja videopelit [6] . Jotkut skannaukset tekevät arkiston omat hakurobotit, kun taas toiset kumppaniorganisaatiot. Yksittäisiä tietokantoja voidaan hankkia käyttäjien lahjoitusten ja kohdennettujen hankintojen kautta [16] . Järjestön perustajat itse vertasivat kokoelmaansa Aleksandrian kirjastoon [6] . Vuodesta 2021 lähtien Wayback Machine sisälsi yli 424 miljardia verkkosivua [14] - enemmän kuin Kongressin kirjaston dokumentit [17] [6] [16] .
Wayback Machine -alusta toimii kahden pääelementin - hakurobottien (tai verkkoindeksointirobottien) ja käyttöliittymän kautta. Indeksointirobotit vierailevat verkkosivuilla, hakevat, lataavat ja arkistoivat niitä. Käyttäjät puolestaan pääsevät käyttöliittymän kautta verkkokokoelmiin [2] .
Wayback-konekokoelma vuosien mukaan | Arkistoidut sivut (miljardeissa) |
---|---|
2005 | 40 |
2008 | 85 |
2012 | 150 |
2013 | 373 |
2014 | 400 |
2015 | 452 |
2016 | 505 |
2020 | 514 |
2021 | 581 |
2022 | 689 |
Aluksi arkistokokoelmaa täydennettiin Alexa Internetin selainlaajennuksella , joka kaappasi ja tallensi automaattisesti jokaisen Web-sivun sitä mukaa, kun sillä käytiin, ja siirsi sitten kaikki kerätyt tiedot "Internet-arkistoon". Käyttäjät voivat myös asentaa ilmaisen työkalupalkin, jonka avulla he voivat tarkistaa valitun verkkosivuston arkistoinnin tilan [16] .
Vuonna 2002 Arkisto lanseerasi oman avoimen lähdekoodin hakurobotin Heritrix [ . Indeksointikoodit kirjoitetaan käyttämällä C- ja Perl -ohjelmointikielten yhdistelmää . Lisäksi Internet-arkisto hyväksyy skannaustiedot myös muilta luovuttajilta [6] . Verkkosivustojen skannatut kopiot muunnetaan automaattisesti noin 100 megatavun tiedostoiksi, jotka sitten tallennetaan palvelimille. Arkiston täydennysnopeus on yhteensä noin 10 teratavua kuukaudessa [19] .
Indeksointirobotit tallentavat sivuston version sellaisena kuin se tallennettiin, kun sitä käytettiin URL-osoitteen kautta. Robotit indeksoivat säännöllisesti suuria määriä verkkosivuja ja lataavat, jäsentävät ja renderöivät rekursiivisesti HTML- , JavaScript- ja CSS - sivuja [2] . Indeksointimekanismi on samankaltainen kuin hakukoneiden työ - robotit etsivät itsenäisesti portaaleja arkistointia varten polunhakulaitteen avulla, skannaavat sivuja ja niihin liittyviä sivustoja muodostaen näin portaaliverkoston. Internet-arkiston luomisajankohtana verkko oli niin pieni, että indeksointirobotit pystyivät käymään kaikki sivustot yhdessä istunnossa. Ajan mittaan verkkoportaalien jatkuva kasvu ja niiden epävakaus ovat kuitenkin tehneet koko verkon täydellisen ohituksen lähes mahdottomaksi. Siten kaikkia sivuston muutoksia ei tallenneta Wayback Machineen [8] . Internet-arkistooppaassa ei täsmennetä, miten robotit löytävät ja valitsevat indeksoitavia sivuja, mutta siinä todetaan, että useimmiten indeksoijat ohjataan sivustoille, jotka on linkitetty muista portaaleista ja jotka ovat julkisia. Indeksointirobotti aloittaa verkkosivulla ja seuraa sitten jokaista kyseisen verkkosivun hyperlinkkiä siirtyäkseen uusille sivustoille. Indeksointirobotti toistaa prosessin jokaisella uudella verkkosivulla [14] . Se jatkuu, kunnes arkistointi lopetetaan tai saavuttaa skriptin asettaman rajan [20] . Lisäksi jokainen käyttäjä voi käyttää portaalissa olevaa erityistä lomaketta ja soittaa indeksointirobotille, joka tallentaa sivun nykyiseen tilaan [2] . Wayback Machine indeksoi vain julkisia verkkosivuja eikä pääse käsiksi sisältöön, joka on suojattu salasanalla tai sijaitsee yksityisellä palvelimella [10] [14] [3] .
Wayback Machine -käyttöliittymän avulla käyttäjät voivat suorittaa kaksi päätoimintoa - päästä käsiksi sivuston muutoshistoriaan ja tarkastella kaikkia portaaleissa tehtyjä muokkauksia. Myös sivustojen eri versioiden vertailutoiminto on käytettävissä [12] [21] [17] [22] . Tätä varten mielenkiintoisen portaalin URL-osoite syötetään erityiseen hakukenttään, jonka jälkeen Wayback Machine julkaisee luettelon arkistointipäivämääristä. Asteriskia joidenkin päivämäärien jälkeen käytetään osoittamaan sivulla löydetyt muutokset. Arkistoidun sivun URL-osoite alkaa web.archive.org [23] [14] .
Kuka tahansa voi tallentaa URL-osoitteita arkistointia varten, ja ilmaisella arkistointitilillä voit luoda ja arkistoida kotisivulle lähteviä tai ulkoisia linkkejä ja saada yleiskatsauksen [24] [24] .
Vuonna 2018 Internet-arkiston kokoelma oli yli 40 petabyyttiä tai 40 miljoonaa gigatavua dataa, Wayback Machine tarjosi pääsyn noin 63 prosenttiin kaikesta saatavilla olevasta materiaalista [25] . Helmikuussa 2020 Wayback Machine -arkistossa oli yli 900 miljardia URL-osoitetta ja yli 400 miljardia verkkosivua [26] . Kesäkuussa 2021 Wayback Machine tarjosi pääsyn yli 581 miljardille tallennettuun verkkosivulle [4] .
Wayback Machine -portaalia käytetään usein lakialalla – asianajajat etsivät palvelusta tietoa yksityisoikeudellisista kanteista, rikosasioista, hallintomenettelyistä ja patenttiprosesseista. Wayback Machinen kautta hankittuja sivustojen arkistoituja versioita voidaan käyttää patenttilainsäädännön ongelmien ratkaisemiseen tai seuraamusten määräämiseen verkosta sittemmin poistettujen materiaalien julkaisemisesta [2] [12] . Huolimatta Internet-arkistokokoelman laajasta käytöstä todisteiden tarjoamiseen, jotkin yhdysvaltalaiset tuomioistuimet ovat kieltäytyneet hyväksymästä verkkosivujen kuvakaappauksia vedoten siihen, että alkuperäisen asiakirjan ja sen arkistoidun version tunnistaminen on oikeudellista vaikeutta [27] . Vuonna 2018 Yhdysvaltain muutoksenhakutuomioistuin päätti, että Wayback Machinen arkistoitujen verkkosivujen kuvakaappaukset ovat oikeudellisia todisteita, joita voidaan käyttää oikeudenkäynneissä; aiemmin samanlaisen päätöksen teki Yhdysvaltain muutoksenhakutuomioistuin kolmannelle liittovaltion valituskierrokselle [28] ; Myöhemmin Yhdysvaltain hovioikeus (City of the Seventh Circuit) päätti myös, että verkkoarkiston kuvakaappaukset ovat hyväksyttäviä sähköisiä todisteita [29] .
Wayback Machineen arkistoitujen artikkeleiden ansiosta kirjoittajat voivat luoda oikeuden avata tai julkaista [30] . Sosiologeille ja historioitsijoille Wayback Machine tarjoaa arvokkaan laajan tietolähteen yrityksen käyttäytymisen, myyntistrategioiden ja sosiaalisten käytäntöjen analysointiin [1] [31] . Wayback Machine mahdollistaa myös pääsyn avoimen pääsyn päiväkirjoihin . Näin ollen 2000-luvun alusta lähtien 84 OA:n luonnontieteiden ja noin 100 muuta yhteiskunta- ja humanististen tieteiden aikakauslehteä on kadonnut Internetistä [32] [33] [34] .
Aktivistit ja tutkijat käyttävät portaalia taistellakseen väärää tietoa vastaan , joka on voimistunut Yhdysvaltain presidentin Donald Trumpin valinnan jälkeen . Vastauksena presidentin hallinnon ristiriitaisten lausuntojen lisääntymiseen arkisto on luonut erillisen kokoelman nimeltä Trump Archive, joka sisältää presidentin televisio-esiintymiset ja twiitit . Arkisto toivoo, että sen arkisto auttaa muita tunnistamaan vääriä tietoja ja tarkistamaan epäilyttävän sisällön [35] [36] . Joissakin tapauksissa yksittäiset aktivistit ovat kuitenkin väittäneet, että Wayback Machinen arkistoidut resurssit ovat päinvastoin edistäneet väärän tiedon leviämistä. Joten koronaviruspandemian puhjettua salaliittoteoreetikot käyttivät portaalin tallentamia kuvakaappauksia levittääkseen väärää tietoa koronaviruksesta [37] . Vastatoimenpiteenä Arkisto otti marraskuussa 2020 käyttöön työkalut tietojen aitouden tarkistamiseksi Wayback Machinessa. Tätä varten voittoa tavoittelematon järjestö teki yhteistyötä useiden faktantarkistusyritysten kanssa tarjotakseen käyttäjille syitä poistaa tietty sivu kokoelmasta. Kun avaat sivuston arkistoidun version, Wayback Machine antaa käyttäjille tietoa sen poistamisen syystä keltaisen bannerin muodossa näytön yläreunassa. Jos verkkosivun epäillään liittyvän disinformaatiokampanjaan, Wayback Machine tarjoaa tiedot varmennuksen suorittaneesta organisaatiosta ja linkin sen raporttiin [38] .
Joissakin tapauksissa Wayback Machinen kautta saatu tieto on esiintynyt suurissa skandaaleissa. Joten portaalin avulla selvisi, että Yhdysvaltain terveys- ja henkilöstöministeriön virallinen edustaja Michael Caputo julkaisi rasistisia ja halventavia kommentteja kiinalaisista joukossa jo poistettuja twiittejä [ 39] . Lisäksi Wayback Machine säilyttää kopion poistetusta viestistä VKontakten sosiaalisen verkoston " Igor Ivanovich Strelkovin raportteja " -sivulta pudonneesta An-26-lentokoneesta, joka todellisuudessa osoittautui matkustajaksi Boeing 777 [40 ] [41] . Toukokuussa 2021 Bellingcat havaitsi, että Yhdysvaltain armeija Euroopassa käytti lasten mobiilimuistisovelluksia turvaluokiteltujen tietojen tallentamiseen. Väärin asetettujen tietosuoja-asetusten vuoksi muut käyttäjät ovat päässeet käsiksi arkaluonteisiin tietoihin. Kun vuoto havaittiin, armeija poisti kaikki kortit, mutta ne jäivät Wayback Machinelle [42] .
Internet-arkisto ei pyydä lupaa kopioida verkkosivustoja ennen tiedonkeruuta etänä, mutta poistaa arkistoidun aineiston tai rajoittaa siihen pääsyä pyynnöstä. Aikaisemmin verkkosivustojen omistajille annettiin mahdollisuus "poistaa" arkistointi tavallisen robots.txt -tiedoston kautta , joka sulkee verkkosivustot tai niiden yksittäiset sivut, hakemistot pois indeksointirobottien portaalien luettelosta [8] [43] . Vuodesta 2022 alkaen pyyntöjä poistaa sivustoja tai niiden sivuja arkistosta hyväksytään vain poistettavan sivuston hallinnon suoran pyynnön jälkeen. Muiden tietojen säilyttämisen vuoksi Internet-arkisto on kuitenkin oikeudellisesti haavoittuvassa asemassa [44] . Esimerkiksi vuonna 2005 Wayback Machine oli sekaantunut tavaramerkkikiistaan Healthcare Advocatesin ja Health Advocaten välillä. Jälkimmäinen käytti Wayback Machinea päästäkseen Healthcare Advocates -verkkosivuille, jotka ovat peräisin vuodelta 1999, yrittäessään löytää tapausta tukevaa tietoa. Vastauksena Healthcare Advocates haastoi sekä Health Advocaten että The Archiven oikeuteen väittäen, että arkisto rikkoi Digital Millennium Copyright Act -lakia . Myöhemmin tapaus sovittiin tuomioistuimen ulkopuolella [45] .
Arkisto poisti vuonna 2002 järjestelmästään linkit kirkkokriitikon Andreas Heldal-Lundin omistaman Xenu.net-portaalin arkistoituihin kopioihin. Poisto tapahtui skientologian kirkon lakimiesten pyynnöstä, ja he väittivät omistavansa verkkosivustolla [46] [47] julkaistut otteet kirkon asiakirjoista .
Tutkijat ja aktivistit ovat arvostelleet Wayback Machinea ja Internet Archivea siitä, että ne yrittävät säilyttää kaiken verkkoaineiston, josta suuri osa on vähäarvoista. Joidenkin tutkijoiden mukaan tämä johtuu 1990-luvun lopulla perustetun arkiston vanhentuneesta politiikasta - silloin, Internet-arkistojen luomisen kynnyksellä, uskottiin, että Internet-tiedot tulisi tallentaa kokonaisuudessaan. Monien yksipäiväisten sivustojen luomisen myötä monet tutkijat ja aktivistit ovat kuitenkin muuttaneet mielensä [48] . Muu kritiikki liittyy palvelun teknisiin rajoituksiin - Wayback Machine ei salli tiettyjen JavaScript-elementtien tallentamista ja käsittelyä, ja se voi myös luoda arkistoituja sivuja, jotka sisältävät rikkinäisiä linkkejä, puuttuvia grafiikoita tai muutoin epätäydellisiä [49] . Indeksointirobotit tallentavat vain staattisen tilannekuvan sivustosta – Java- tai Flash-pohjaiset portaaliominaisuudet eivät toimi. Tämä tarkoittaa, että suurin osa alkuperäisen verkkosivun toiminnoista menetetään [8] .
Vuonna 2015 Roskomnadzor päätti estää Wayback Machinen kopioimasta sivua tekstistä "Solitary Jihad in Russia", joka sisältää tietoa "sissivastarinnan teoriasta ja käytännöstä". Vastaava Internet-arkiston sivu lisättiin Venäjän kiellettyjen sivustojen viralliseen rekisteriin 23.6.2015, minkä vuoksi jotkin venäläiset Internet-palveluntarjoajat joutuivat estämään arkistosivuston kokonaan [50] [51] [52] . Pääsy Wayback Machine -sovellukseen avattiin uudelleen vuonna 2016, kun kielletyt videot poistettiin portaalista [53] .
Vuonna 2019 Internet Copyright Associationin (ACAPI) edustajat nostivat joukon kanteita Wayback Machine -palvelua vastaan tekijänoikeusrikkomuksesta. AZAPI:n edustajat pyysivät Moskovan kaupungin tuomioistuinta päättämään portaalin pysyvästä estämisestä Venäjän alueella, mutta elokuussa 2020 Internet-arkisto jatkoi edelleen työtään [54] [55] [56] [57] .
Vuonna 2017 portaali estettiin Intiassa ja Kirgisiassa "ääriainesten" [58] [59] [60] vuoksi . Vuodesta 2021 lähtien sivusto on estetty Kiinassa [61] .
Kesäkuussa 2022 Moskovan Taganskyn käräjäoikeus tuomitsi Internet-arkistolle 800 000 ruplan sakon, koska se ei poistanut videota Molotov-cocktailin valmistamisesta WayBack Machinesta [62] .