amber.zine futura sci-tech
sci-fi kultura mimo
amber.zine
futura
sci-tech
sci-fi
kultura
mimo
plug-ins
interakce
historie
crew
ego
BTW
archiv...
starší čísla...
Hledání na webu
[2/4]
Pavel Šuchmann

Práci robotů ztěžuje také fakt, že často nejsou schopny číst dynamicky vytvářené stránky, nezařadí do databáze nic, co člověk obdrží po vyplnění nějakého WWW formuláře a mají potíže mimo jiné například se stránkami se serverovým kódováním češtiny. Situaci dále komplikuje to, že autoři dokumentů nedodržují doporučení jazyka HTML, v němž jsou dokumenty psány - často neuvádějí i tak základní informaci, jaknou je např. titulek stránky - a také to, že stále větší procento textového obsahu je zobrazováno formou grafickou.

Uživatelské rozhraní a dotazovací subsystém

Uživatelské rozhraní je ono notoricky známé okno dotazu a tlačítko "Hledej!". Většina služeb kromě tohoto základního režimu (Simple Search) nabízí i rozšířené způsoby hledání (Advanced Search, Refine Query..), avšak jasným trendem je tyto rozšířené režimy neprosazovat. Důvodem je zřejmě nízká úroveň uživatelů, využívajících těchto možností pouze ojediněle.

Po stisknutí tlačítka je předán řetězec klíčových slov dotazovacímu subsystému, což je proces, jenž zadaný text analyzuje, vybírá z hlavní databáze položky splňující daný dotaz, řadí je a vrací výsledek zpět uživatelskému rozhraní.

Na vyhledávací stroj jsou kladeny protichůdné požadavky. Doba odezvy musí být minimální, nejlépe nulová, aby nemusel návštěvník příliš čekat. Na druhé straně stojí pochopitelná snaha provozovatelů hledací služby neustále zvyšovat denní počet přístupů na stránky, což je určující faktor pro cenu vystavovaných reklam.

Výsledek hledání je uživateli předložen ve formě seznamu odkazů, často doplněných o stručné popisy stránek, však to znáte. Zajímavé jsou zejména kritéria, podle kterých hledací subsystém řadí odkazy ve výsledku. Nejdůležitější je počet výskytů hledaných slov. Dále jsou preferovány stránky obsahující hledaná slova v hlavičce či titulku, čím blíže začátku souboru, tím lépe. Někdy je zohledněna vzájemná vzdálenost hledaných slov v hodnoceném textu, měřeno počtem slov mezi nimi (Alta Vista). Některé algoritmy berou v úvahu i jiné charakteristiky hodnotící "popularitu stránky" (Magellan) nebo např. počet odkazů (citací URL) z cizích stránek (Lycos).

Pokud často používáte hledací služby, víte, že většina položek odpovědi je informační šum. Udává se, že až 15% URL odkazů ve výsledcích je mrtvých, tj. jde o neaktuální položky databáze. Dále se do výsledků dostávají i adresy ostatních stránek, které obsahují hledaná klíčová slova v jiném kontextu. Zvolit správná klíčová slova často vyžaduje opakované úsilí, na jehož konci je výsledek s uspokojivým počtem položek (desítky, maximálně stovky odkazů).

Některou stránku se vám naopak nepodaří vyhledat vůbec, což je také častá situace.

Metahledače

Zajímavou odrůdou hledacích služeb jsou tzv. metahledače (Savvy Search, MetaCrawler). Metahledací služba nemá vlastní indexovou databázi, nicméně svým uživatelům nabízí rozhraní podobné formulářům klasických hledacích služeb. Zadaný dotaz posílá simultánně několika hledacím službám, svým způsobem tak "parazituje" na cizích databázích.

Jaké to přináší výhody? Složený výsledek násobného dotazu je úplnější. Dotážeme-li se většího počtu databází, pak jediná z nich údajně pokrývá maximálně 45% celkového počtu odkazů ve složené odpovědi.

Zvláštním případem jsou klientské metahledače (Web Ferret). Namísto centrální služby přístupné přes prohlížeč se jedná o program, který si nainstalujete na počítač. Kromě zmíněných vlastností metahledačů nabízejí tyto hledače určité další možnosti volby hledací strategie (např. jakých databází se chcete dotazovat, jak rozsáhlé výsledky přijímat apod.).

Klientské hledače také nevytvářejí vlastní indexové databáze, jejich hlavní předností je to, co ocení každý, kdo je k Internetu připojen přes komutovanou telefonní linku: dovedou hledat najednou v několika databázích současně.

Pátrací agenti

Největší slabinou hledacích služeb a metahledačů je obecné zaměření databází, které jsou získávány "hrubou silou" a jsou zaměřeny na potřeby průměrného uživatele. Zdá se, že pouhé hledání podle klíčových slov nepostačuje, zvláště, když dopředu nemáme příliš jasnou představu o tom, co vlastně chceme najít (častý případ).

amber.zine
futura sci-tech sci-fi kultura mimo
Amber Crew