Vyhledávací stroje typu Alta Vista, Google, atd. jsou nejčastěji používaným
nástrojem k prohledávání Internetu. Umí ovšem indexovat pouze menší část webu a zbytek týkající se především obsahově bohatých a
hodnotných databází (univerzitních, knihovních, firemních, vládních atd.) nelze tímto způsobem prohledávat. Příspěvek se věnuje
případům, ve kterých nelze tento obsah Internetu vyhledávácími stroji vyhledat a zároveň předkládá způsoby, jak se k těmto rozsáhlým
zdrojům dostat. Neviditelný web a především jeho zmapování je další výzvou pro informační profesionály.
|
Pro informační profesionály, ale v podstatě pro kohokoli kdo používá Internet k vyhledávání informací, se staly
vyhledávací stroje a adresáře denně používaným nástrojem. Myslím, že se mnou budete souhlasit, že v mnoha případech je to
pomůcka naprosto skvělá, mnohdy si ovšem po neúspěšných pokusech říkáte: “Jak to, že to ten zatracený Google (Altavista, Kompas,
…) nemůže najít?! Vždyť to někde musí být!” Chyba může být na několika místech. Třeba nepoužíváte správný vyhledávací stroj nebo
zadáváte dotaz nesprávně. Možná se snažíte zjistit nové zprávy běžným strojem, místo abyste využili stroj k tomu určený. Někdy
požadovaná informace na Webu prostě není, a proto ji také nelze nalézt. I přes obrovské množství zdrojů zpřístupněných na Webu
nelze očekávat, že tam lze nalézt odpověď na všechno. Stále tu zůstávají “staré dobré” knihy a knihovny a možná právě tam
najdeme co hledáme.
V některých případech autor nechce mít stránky v databázi vyhledávacího stroje, jinde je překážkou vyplnění
registračního formuláře. Může se ovšem stát, že informace na Webu existuje, ovšem vyhledávací stroje ji neumí nalézt nebo ji
nemají indexovanou ve své databázi. V tomto případě hovoříme o jevu nazývaném Invisible (neviditelný) Web, v některých případech
Opaque (temný, neprůhledný) Web. Co se skrývá pod těmito názvy? Mimo jiné jde o kvalitní a rozsáhlé databáze univerzit,
knihoven, úřadů a společností o jejichž obsahu nám běžné nástroje nic neřeknou. Kromě toho velké množství dalšího materiálu
zůstává z různých důvodů skryto. Abychom věděli proč se velká část Webu vyhledávacím strojům skrývá, je dobré začít přímo u
nich.
Velmi stručné shrnutí jak pracují vyhledávací stroje
- Program tzv. spider nebo crawler automaticky prochází Web
- Neděje se to v reálném čase (tím myslím při zadání dotazu)
- Některé stránky nejsou navštíveny i několik týdnů a nedají se tedy vyhledat
- Indexuje se obsah stránek a ukládá do databáze
- Vyhledávací stroj zpřístupní svůj index na Internetu
- Rozhraní vyhledávacího stroje v prohlížeči
- Stránka s výsledky dotazu s příslušnými linky
Co je Neviditelný Web?
Stručná definice: “Materiál “na Webu”, který běžné vyhledávací nástroje - stroje (Google, Altavista) neumí
automaticky procházet, indexovat a tudíž vyhledávat.”
Proč je dobré znát Neviditelný Web?
- Data opomenutá běžnými vyhledávacímy stroji
- NW může obsahovat informaci kterou hledáme a jinde není
- Promarněný čas: jak dlouho hledáme na nesprávných místech? • Výhody specializovaných databází
- Kvalita obsahu NW
Co je “Opaque” Web?
- Neprůhledný, temný Web - téměř Neviditelný Web
- Materiál, který může být procházen spidery/crawlery, ale po určitý čas (případně nikdy) není.
- Není přístupný běžnými vyhledávacími stroji
Co vyhledávací stroje nenajdou?
- Spider/crawler navštíví “site”, ale hledá pouze do určité hloubky
V některých případech indexuje jen část “site”
Momentálně vyhledává PDF soubory pouze Google.http://www.google.com/help/faq_filetypes.html Některé
další stroje umí také více formátů, ale tyto funkce nejsou volně přístupné. Vzhledem k rozšiřování služeb je možné, že v
době publikování tohoto článku bude tato Další problematické soubory - PPT, DOC, XLS, FLASH, streaming media.
- Site/stránka je přístupný/á pouze po registraci
Spider/crawler se neumí zaregistrovat.
- Firewall nebo jiné zařízení znemožňuje přístup Nejsme vítáni.
- Dynamicky generované stránky (cgi, javascript, asp, většina stránek s ”?” v URL)
Spider/crawler zjistí ”?” v URL a zastaví se.
- Autor použil tzv. NO-ROBOT TAG
Některé/všechny spidery/crawlery mají zakázaný přístup.
- “Dead End Page” - stránka není linkována z žádné jiné stránky, kterou vyhl. stroj zná
Primární způsob procházení Webu spiderem/crawlerem - využívá linky ze známých stránek.
- Stránka nebyla nahlášena vyhledávacímu stroji Sekundární způsob pro získávání nových stránek
- Materiál je v javasript pop-up windows Spidery/crawlery často nesledují javasript příkazy
- Materiál je některými stroji indexován, jinými ne
Neexistují dva stejné vyhl. stroje! http://www.searchengineshowdown.com/
Někdy ovšem více vyhledávacích strojů využívá stejnou databázi. Například All the Web poskytuje svou
databázi pro Lycos.
- Stránka se již od poslední návštěvy spider/crawleru změnila (časové zpoždění)
Běžně spider/crawler vrací na stránku po několika týdnech. Pouze v případech významných serverů se
vrací častěji. U vyhledávacích strojů specializovaných na zprávy i několikrát denně.
- Obsah je konstantně obnovován (Real-Time)
Spiders/spider/crawlers
neprocházejí neustále obnovovaný obsah
http://www.trip.com/trs/trip/flighttracker/flight_tracker_home.xsl
- Obsah je kompletně indexovatelný, ale velikost stránky přesahuje limit
Google 101kB, Altavista 110 kB,AllTheWeb vše
- Site nebylo funkční, když ho chtěl spider navštívit
Nový obsah není indexován. Nutno doufat, že se spider brzy vrátí.
materiál generovaný z databází
často neexistuje unikátní URL
stránka je vytvořena na základě Vašeho požadavku - spidery/crawlery neumí zadávat dotazy
Brány pro Neviditelný Web
V podstatě se jedná o adresáře databází, které jsou vytvářeny informačními profesionály. Mají navíc často
přidanou hodnotu díky popisu jednotlivých zdrojů.
Neviditelný Web & Informační profesionál - co je třeba si uvědomit?
Neviditelný Web & Informační profesionál - co je možné dělat?
- Vytvářejte a zdokonalujte vlastní kolekce
- Prozkoumávejte pečlivě celé stránky
- Vytvářejte linky přímo k interface daného zdroje
- Šetřete čas Vašim uživatelům
- Udržujte aktuálnost
Budoucí trendy
- Budou vznikat nové brány a sbírky
- Obsah NW se bude narůstat
- Stále větší část Webu budou pokrývat vyhledávací stroje
- Bude docházet k ztrátě funkčnosti individuálních vyhledávacích nástrojů
Neviditelný Web - příklady:
Real-Time Informace
Komerční informace
Computer Science
Intelektuální vlastnictví
Slovníky a jazyky
Umění
Cestování
Zdraví a medicína
Novinky a události
Věda
Volný čas
Použité zdroje:
SHERMAN Chris, PRICE Gary: The Invisible Web: Uncovering Information Sources Search Engines Can´t See,
Medford NJ: Information Today Inc., 2001
World Wide Web
|