Akarják látni saját szemükkel, hogy milyen is volt az internet tegnap, a múlt héten, esetleg 1996-ban? Semmi gond. Ez teljesen reális kívánság. Nem hiszik? Akkor olvassák el ezt a cikket, amely a Waybach Machine-ról, az internet archívumáról szól. Már 1996 óta archiválja az összes hozzáférhető web-dokumentumot, s mára már mintegy 10 milliárd oldal található ebben az archívumban, talán az ön web-oldala is.
Internet-archívum a következő generációk számára
Az internet tulajdonképpen olyan, mint a futóhomok. A maga változatosságában és szabadságában talán csak az emberi közérzethez hasonlítható, fejlődésének üteme pedig olyan, mint azoké a mikroorganizmusoké, amelyek a számukra kedvező környezetben találhatók. Nagy, szabad és nem csupán bizonyos személyek számára fontos adatok tárolására szolgál, hanem dinamikus tükörképe mindazon emberek közérzetének, akik a monitorok előtt ülnek és létrehozzák magát az internetet.
Oldalról oldalra, bájtról bájtra.
Megtalálhatjuk benne életünk egy részét, a fontosabbakat és a kevésbé fontosakat egyaránt. Mindezek ellenére azonban esély van arra, hogy életünknek ez a része nyom nélkül eltűnhet a múlt homályában. Statisztikai adatok szerint egy web-dokumentum átlagos élettartama mintegy 100 nap, ezek után a dokumentum vagy megváltozik, vagy egész egyszerűen törlődik. Ugyanezen statisztikai adatok szerint egy site átlagos élettartama 19 hónap. Ha a projekt nem hordoz magában fontos információkat, s a szerzői nem veszik a fáradságot és nem mentik meg azt valahol "emlékül", akkor egész egyszerűen eltűnik. Mindörökre eltűnik. Bele kell-e ebbe törődnünk?
Bruste Kahl, a Waybach Machine megalkotója úgy vélekedik, hogy ebbe semmiképpen sem szabad beletörődnünk. Ezért immár több mint 7 éve, 1995 óta, az Internet Archive összegyűjti egy adatbázisba és elmenti az összes hozzáférhető World Wide Web dokumentumot, beleértve a grafikákat is. Az adatbázis mérete már most lenyűgöző: több mint 10 milliárd oldal van elmentve, naponta mintegy 250 Gbájt információval nő az adatbázis, havonta több mint 12 terabájt információ érkezik ebbe az archívumba. A Waybach Machine az Alexa Internet cég leányvállalata, amelyik egy keresőrendszert üzemeltet, s a kereső pókjai szintén részt vesznek az archívumba bekerülő adatok gyűjtésében (pókok, spiderek stb. - olyan programok, melyek a keresőrendszerek alkotóelemei, mint pl. a Yandex, Google stb.), és amelyek az utalások (linkek) mentén mozogva a további indexáció céljából olvassák a web-oldalakat). Az internet-archívum nyilvánosan 2001 októbere óta érhető el.
Ide nekem az időgépet!
Ahhoz, hogy megbizonyosodjunk mindarról, amiről eddig szó volt, s egy sajátságos időutazást hajtsunk végre, elegendő mindössze a site nyitóoldalán megadnunk az általunk keresett site tartalmát. Sajnos, a Waybach Machine jelenleg még nem képes arra, hogy a web-oldal tartalma alapján végezze a keresést, mint más keresőrendszerek (pl. Yandex). Ezért ahhoz, hogy a megfelelő oldalra jussunk, tudnunk kell a konkrét URL-t, vagy legalábbis a site címét.
Számomra például rendkívül érdekes volt az, hogy miként nézett ki néhány évvel korábban a Computerra.ru. Hogy ezt a kíváncsiságomat kielégítsem, a keresőbe beírtam a www.computerra.ru címet, majd megnyomtam a "Take me back" gombot. Ennek a keresésnek az eredményeként, egy olyan oldalt kaptam, amelyik hét oszlopot tartalmaz, melyek különböző éveknek felelnek meg, 1996-tól 2002-ig. Minden oszlop dátumok listáját tartalmazza, melyek utalások különböző archívumokra. 1996 és 1997 között nincsenek adatok. A legrégebbi oldal, ami itt megtalálható volt, az 1998. december 12-i. Az 1999-es oszlop két utalást tartalmaz, melyek mindegyike valamilyen év elejei oldalt jelöl.
2000-ben már 14, 2001-ben pedig 28 utalás található az oldalon. 2000-től az archívum frissítése januárban kezdődött, és viszonylag rendszeresen, havonta 5-7 alkalommal elvégezték ezt a megújítást. Majd ezek után ez a folytonosság megszakadt. A 2002-es oszlop üres. Az utalások többségének végén a "*" jel található. Ez azt jelenti, hogy az oldal változott, és különbözik a legutóbbi archívumban található másolattól (nagyon érdekes, hogy néhány utalás, annak ellenére, hogy az oldal folyamatosan megújult, nincs "*"-gal jelölve. Ez az 1999 és 2000 augusztusa közötti periódus. Ez talán azzal magyarázható, hogy megváltoztak az anyagok feldolgozását szolgáló algoritmusok).
Kiválasztjuk az archívumban található legkorábbi utalást (1998. december 12). Töltődik az oldal. Az igazság az, hogy nálam nem minden kép töltődött le azonnal. Voltak olyan képek, melyek csak többszöri újralekérés után jelentek meg. Egy bizonyos idő elteltével egy érdekes részletre leszünk figyelmesek. Az oldal felső részén egy információs ablak található, melyben az Orosz Nemzeti Bank 1999. november 26-ra érvényes valutaárfolyamát olvashatjuk. Vagyis ez nem is 1998! Lehet, hogy ez is a rendszer hibás feldolgozási és rendszerezési algoritmusával van összefüggésben. Mindezek ellenére az oldal nagyon érdekes: régi külalak, egy Pentium III reklám, a fő oldalon pedig ilyen címek olvashatóak: "A Microsoft piacra dobja a Windows Millennium Beta 2-t", "Háború Koszovóban", "A 750 MHz-es Athlon már hétfőtől megvásárolható " stb.
Meg kell jegyeznem még néhány fontos részletet. Először is, minden cím http://web.archive.org/-gal kezdődik. Utána következik a fejezet neve ("web/"), majd számok egész sora, és csak ezt követően olvashatjuk magának az oldalnak a címét. Ilyen például a korábban említett oldal.
A számok sorozata korántsem véletlen. Ha alaposan megfigyeljük, akkor észrevehetjük, hogy a pontos dátumot adják "év - hónap - nap - óra - perc - másodperc" formátumban. Amint látjuk, ez az oldal valóban nem 1998-as, hanem 1999-es, pontosabban pedig 1999. november 28-án, 08:33:14 órakor lett regisztrálva. Egyébként ezt a szintaxist használhatjuk közvetlenül a keresés során is. Nem kell feltétlenül másodpercre pontosan tudnunk a regisztráció dátumát. Erre a célra használhatjuk a rövidített dátumot is. Így például a http:///2000/http://www.mysite.com szintaxis a 2000. július 1-jéhez legközelebbi dátumnak megfelelő oldalt fogja megjeleníteni. A ttp:///200010/http://www.mysite.com szintaxis eredményeként pedig olyan oldalt kapunk, melynek a dátuma legközelebb esik október 15.-éhez. Annak érdekében, hogy a legfrissebb archívumot tudjuk megtekinteni, a http:///http://www.mysite.com szintaxist kell alkalmazni.
Másfajta lehetőségeket kínál a speciális keresés oldal, ahol egy kényelmesebb felülettel találkozhatunk. Itt kiválaszthatjuk azt az időközt, amelyben a keresést kell végezni. Mindezek mellett itt még nagyon sok más fontos beállítást is elvégezhetünk. Így például korlátozhatjuk a keresendő dokumentum típusát (images, audio, video, binary, text vagy PDF; hallgatólagosan az All types opció az érvényes), meg lehet határozni, hogy csak egyértelmű keresés történjék, vagy figyelembe kell venni a hasonló oldalakat is (ez azt jelenti, hogy megjeleníti pl. a yahoo.com-ot, a www.yahoo.com-ot, és a yahoo.com/index.html-t is).
Egy másik fontos mozzanat a Waybach Machine által megjelenített oldalakkal kapcsolatban az, hogy minden utalás, melyek az oldalon találhatóak, nem a jelenlegí site-okra vonatkozik, hanem az archíváltakra. Ennek köszönhetően a szó szoros értelmében a "múlt internetében" érezhetjük magunkat. Ez nagyon sok lehetőséget kínál: a történészek rengeteg sajátosságra deríthetnek fényt 1996-tól napjainkig, a business-kutatók megvizsgálhatják azokat a business-terveket, melyek a cégek csődjéhez vezettek, a munkaadók megtekinthetik a munkatársaik vagy a munkára pályázók korábbi munkáit, a web-design-erek vizsgálhatják a korai web design-t stb.
Jelenleg ennek az archívumnak az alapján tematikus kollekciókat hoznak létre. Ezeken olyan web-anyagok találhatóak, melyek meghatározott eseményekkel, történésekkel vannak összefüggésben. Így például jelenleg a felhasználóknak olyan kollekciókat kínálnak, mint például "A szeptember 11-i események".
"A háló úttörői" (olyan események, melyek fontosak voltak az internet fejlődése szempontjából), vagy a "2000-es amerikai elnökválasztás". Tervezik új kollekciók létrehozását is.
Nem minden problémamentes
Természetes, hogy a Waybach Machine működése a több mint 120 terabájt információ ellenére is rengeteg problémát és kérdést vet fel. Mint ahogy azt már említettük, az adatok gyűjtése kereső pókok, spiderek segítségével történik, ugyanúgy, mint a keresőrendszerek esetében. A Waybach Machine esetében kéttípusú - szűk- és széleskörű - keresésről beszélhetünk.
A széleskörű keresés lényege, hogy az adatok gyűjtése maximálisan széles skálán történik, s lehetőleg lefedi az összes lehetséges forrást. A szűk keresés célja olyan információk begyűjtése, melyek meghatározott site-okon találhatók, vagy konkrét témával rendelkeznek. A széles keresés már régóta rengeteg kérdést vet fel. Ha egy olyan robot létrehozása, amely teljes mértékben ki tudja használni a 100 Mbit/sec csatorna áteresztőképességét, nem okoz komolyabb gondot, akkor egy ilyen pók "megetetése" jóval nehezebb feladat.
Ilyen intenzitású munka mellett a robot képes lesz heti 150 millió oldalt lefedni, s mintegy 40-60 napig fog ilyen ütemben dolgozni. Ugyanakkor, mielőtt elvégezzük valamelyik oldal archíválását, ellenőrizni kell, nincs-e véletlenül ennek az oldalnak a másolata az archívumban. Ezek a műveletek a RAM-ban történnek. Ez természetesen jelentős mértékben leterheli a RAM-ot, s a rendszer lelassul.
A széles keresés problémáját illető másik aspektus az, hogy nagyon leterheli a site-ok szervereit is. Nem minden szerver képes arra, hogy kibírja egy olyan kereső pók nyomását, amelyik naponta több tízmillió site-ot "rág át".
Vagyis ebben az esetben két változat lehetséges: vagy a program-robot elég intelligens ahhoz, hogy korlátozza a szerverre gyakorolt nyomását, mert ellenkező esetben a szerver összeomolhat, vagy a Waybach Machine site-ja sem mindig elérhető. Gyakran előfordul az, hogy amikor megnyitjuk a site-ot, azt olvassuk, hogy "a nagyszámú bekérdezések miatt" a site nem elérhető. Vagy az "Internet Archive Site" műszaki okok miatt ideiglenesen nem működik.
Megjegyzendő, hogy az archívum látogatottsága valóban nem kevés, eléri a napi 5 millió látogatót. De annak következtében, hogy nagyon bonyolult a publikált anyagok kiszűrését szolgáló mechanizmus, hiszen az inteneten egy valamilyen anyag egyszerre több helyen is előfordúlhat, így az ilyen keresésé során 30%-os az ismétlődések aránya.
Egyes site-ok tulajdonosai, ilyen vagy olyan okok miatt nem szeretnék, ha a web-oldaluk indexálva lenne. Ezért korlátozzák az archiváló robot hozzáférését a site tartalmához (ezt úgy lehet megoldani, hogy meghatározzuk a szükséges direktívákat a robots.txt fájlban, a site gyökérkönyvtárában).
Igaz azonban az is, hogy ha az archívumban való böngészés során egy ilyen site-ra való utalásra bukkanunk, akkor megtalálhatjuk az adott fájl másolatát is, valamint megismerhetjük az okot, hogy ebben az esetben miért hiányoznak a rendelkezésre álló anyagok. Egyébként abban az esetben, ha ki kell törölni valamilyen, már korábban megmentett anyagot az archívumból, akkor ezt meg lehet tenni egy speciális oldalon.
Természetesen mint mindig, most is felmerül a finanszírozás kérdése. Évente csak az adattárolókra
40 000 dollárt költenek. Az archívum fizikailag három helyen található. Ebből kettő San-Francisco környékén, és egy az új Alexandriai könyvtárban található, Egyiptomban.
A Waybach Machine nem kereskedelmi projekt, és a site-on nincsenek is reklámok, amelyek képesek lennének legalább valamilyen mértékben kompenzálni a kiadásokat. Jelenleg a finanszírozás önkéntes alapon történik, vagyis egyes magánszemélyek és cégek fedezik a működési költségeket. A partnerek között, akik az első oldalon vannak feltüntetve, olyan nevek olvashatóak, mint az AT&T Research, a Compaq, a Prelinger Archives, a QuantumDLT, és a Xerox PARC.
A Waybach Machine elnöke abban bízik, hogy a későbbiekben létrejön egy összevont projekt, s az ő cége csak az első vállalkozás lesz egy teljes céghálózat keretében. Ez egy nagy feladat megoldására - a tudás, az információ összegyűjtésére, megmentésére, bárki számára történő hozzáférhetőségének biztosítására - fog megszületni.
Jurij Dzjuban
Forrás: http://www.computerra.ru/
Az érdekesség kedvéért megnéztük az index.hu-t. A dátum 1999. október 12.
(A kép kinagyításához klikkelj a képre).

Az index.hu nyitóoldala 1999. október 12.-én
Ilyen címeket olvashatunk:
Újabb bombagyáros rendorkézen, Nisben hétezren követelték Szlobodan Milosevics elnök távozását, Olajos rendőrök: most Sarkadon vádolnak, Orbán: Pepónak kell tisztára mosnia Aradit stb.
De rég is volt...
|