Tento text uveřejnil časopis Živel č. 10 pod názvem Hledej, šmudlo, zde jej publikujeme se svolením redakce.
Hledáte něco? Všechno je na Internetu: předpověď počasí, program Vídeňské státní opery, horoskopy čínských císařů, návod na výrobu bakelitu, tuny pornografie, unabomberův manifest, tibetská kniha mrtvých, dnešní noviny, eskymácká kuchařka, pohyby akcií na burze a Stopařův průvodce po galaxii.
To všechno tam je. Jak ale najít, to, co potřebujete?
Tento problém je starý jako web sám.
První hledací služby sítě WWW se objevují roku 1994, v současnosti existují asi dvě desítky těch, které mají globální charakter. Všechny dnes patří soukromým společnostem, často však začaly jako praktická část univerzitního výzkumu. Jejich příjmy tvoří zejména proužková reklama, joint ventures s významnými softwarovými firmami a prodej licencí. Jistě znáte ty největší z nich - InfoSeek, Alta Vista, Excite, Lycos, Yahoo.
Ačkoliv činnost jednotlivých systémů se může od sebe navzájem i výrazně lišit, pokusíme ve stručnosti popsat principy společné všem těmto hledacím službám.
Databáze a roboty
Jádrem každé hledací služby je indexová databáze, ve většině případů plněná a občerstvovaná automaticky. Může být ale tvořena poloautomaticky (Magellan) nebo i zcela ručně (Yahoo). Většina hledacích služeb také mimoto umožňuje svým uživatelům přidat záznam - odkaz na svoji stránku.
Indexační databáze obsahuje informace potřebné k dohledání stránky na WWW. Často je uchovávana jen adresa (URL), titulek a několik set prvních znaků na stránce. Velikostí databáze se samozřejmě hledací služby od sebe liší a každá o sobě udává - z marketingových důvodů - jiné parametry: počet známých či jedinečných URL odkazů, počet jedinečných WWW stránek, počty částečně a zcela indexovaných stránek, atd. Zdá se, že nejmohutnější indexy vlastní Alta Vista (31 miliónů stránek z 476 000 serverů, přes 200GB dat), Hot Bot, Lycos a Open Text. Velikost databáze však nemusí být to nejdůležitější - porovnejte si například výstup Alta Visty a InfoSeeku po zadání stejných klíčových slov.
Mnohé hledací služby nabízejí obsah své databáze také ve formě stromových katalogů (browsing structure). Použitelnost katalogu do značné míry záleží na tom, jak jsou témata členěna, jak často je katalog aktualizován, kolik obsahuje úrovní a jak intuitivní je postup jednotlivými uzly stromu. Udržovat rozsáhlou databázi tematicky členěných odkazů vyžaduje značné úsilí s velkým podílem ruční práce. Kdo si byť jen zkusil vytvořit katalog knížek ve vlastní knihovničce, ví, o čem je řeč.
O aktualizaci databáze se tedy ve většině případů stará robot "sběrač" (harvesting robot). To je autonomní program, jehož činnost můžete neuměle napodobit, pokud posadíte maniaka k prohlížeči a budete ho nutit, aby si prohlédl celý Internet. Robot je však rychlejší, důslednější a neunaví se. Předně ho nezajímají obrázky a grafická podoba (layout) stránky, "čte" jen čistý HTML text, a na stránce si nejvíce "všímá" odkazů na další stránky. Pracuje rád v noci, v době, kdy je síťový provoz nízký. A pracuje systematicky, ačkoliv jeho rozhodovací pravidla někdy obsahují prvky náhody (Lycos).
Data, která robot "sklidil", předá ke zpracování indexačním programům. To jsou další programy, jacísi knihovníci a archiváři, kteří vyberou z materiálu to podstatné, odstraní informační šum, optimalizují data a připraví je pro vyhledávací subsystém. Výsledkem tohoto procesu jsou nové nebo občerstvené záznamy v hlavní databázi prohledávací služby.
Navzdory nezměrnému úsilí navštíví roboty váš server v průměru dvakrát do roka, ačkoliv některé často obměňované stránky jsou indexovány častěji.
Takový robot to vůbec nemá jednoduché. Nejprve se na webu musí umět pohybovat.
Jak vypadá taková průměrná webovská stránka? Počet odkazů na stránce je sice v průměru větší než 10, což by naznačovalo vysokou propojenost webu, pouhá jedna třetina odkazů však vede mimo stránku. Z vnějšku pak v 59% případů ukazuje na stránku jen jeden jediný odkaz.
WWW tedy není homogenní hmota mezi sebou dobře propojených stránek, spíše jde o ostrovy navzájem tematicky oddělených webů, mezi nimiž je propojení minimální (např. síť akademických serverů a web s erotickým obsahem, apod.). Údajně až 5% všech stránek tvoří jakousi mrtvou hmotu, zcela izolovanou od okolního hypertextového prostoru.
|