Role informačních profesionálů v současném světě a Zakončení konference

Předseda: Jan Vymětal

23.5.2002

13:15 - 15:55

Nová aula

Neviditelný web - co vyhledávací stroje nenajdou

Martin Lhoták, Knihovna Akademie věd ČR, oddělení IT, Praha

Vyhledávací stroje typu Alta Vista, Google, atd. jsou nejčastěji používaným nástrojem k prohledávání Internetu. Umí ovšem indexovat pouze menší část webu a zbytek týkající se především obsahově bohatých a hodnotných databází (univerzitních, knihovních, firemních, vládních atd.) nelze tímto způsobem prohledávat. Příspěvek se věnuje případům, ve kterých nelze tento obsah Internetu vyhledávácími stroji vyhledat a zároveň předkládá způsoby, jak se k těmto rozsáhlým zdrojům dostat. Neviditelný web a především jeho zmapování je další výzvou pro informační profesionály.



Pro informační profesionály, ale v podstatě pro kohokoli kdo používá Internet k vyhledávání informací, se staly vyhledávací stroje a adresáře denně používaným nástrojem. Myslím, že se mnou budete souhlasit, že v mnoha případech je to pomůcka naprosto skvělá, mnohdy si ovšem po neúspěšných pokusech říkáte: “Jak to, že to ten zatracený Google (Altavista, Kompas, …) nemůže najít?! Vždyť to někde musí být!” Chyba může být na několika místech. Třeba nepoužíváte správný vyhledávací stroj nebo zadáváte dotaz nesprávně. Možná se snažíte zjistit nové zprávy běžným strojem, místo abyste využili stroj k tomu určený. Někdy požadovaná informace na Webu prostě není, a proto ji také nelze nalézt. I přes obrovské množství zdrojů zpřístupněných na Webu nelze očekávat, že tam lze nalézt odpověď na všechno. Stále tu zůstávají “staré dobré” knihy a knihovny a možná právě tam najdeme co hledáme.

V některých případech autor nechce mít stránky v databázi vyhledávacího stroje, jinde je překážkou vyplnění registračního formuláře. Může se ovšem stát, že informace na Webu existuje, ovšem vyhledávací stroje ji neumí nalézt nebo ji nemají indexovanou ve své databázi. V tomto případě hovoříme o jevu nazývaném Invisible (neviditelný) Web, v některých případech Opaque (temný, neprůhledný) Web. Co se skrývá pod těmito názvy? Mimo jiné jde o kvalitní a rozsáhlé databáze univerzit, knihoven, úřadů a společností o jejichž obsahu nám běžné nástroje nic neřeknou. Kromě toho velké množství dalšího materiálu zůstává z různých důvodů skryto. Abychom věděli proč se velká část Webu vyhledávacím strojům skrývá, je dobré začít přímo u nich.

 

Velmi stručné shrnutí jak pracují vyhledávací stroje

  • Program tzv. spider nebo crawler automaticky prochází Web
  • Neděje se to v reálném čase (tím myslím při zadání dotazu)
  • Některé stránky nejsou navštíveny i několik týdnů a nedají se tedy vyhledat
  • Indexuje se obsah stránek a ukládá do databáze
  • Vyhledávací stroj zpřístupní svůj index na Internetu
  • Rozhraní vyhledávacího stroje v prohlížeči
  • Stránka s výsledky dotazu s příslušnými linky

 

Co je Neviditelný Web?

Stručná definice: “Materiál “na Webu”, který běžné vyhledávací nástroje - stroje (Google, Altavista) neumí automaticky procházet, indexovat a tudíž vyhledávat.”

 

Proč je dobré znát Neviditelný Web?

  • Data opomenutá běžnými vyhledávacímy stroji
  • NW může obsahovat informaci kterou hledáme a jinde není
  • Promarněný čas: jak dlouho hledáme na nesprávných místech? • Výhody specializovaných databází
  • Kvalita obsahu NW

 

Co je “Opaque” Web?

  • Neprůhledný, temný Web - téměř Neviditelný Web
  • Materiál, který může být procházen spidery/crawlery, ale po určitý čas (případně nikdy) není.
  • Není přístupný běžnými vyhledávacími stroji

 

Co vyhledávací stroje nenajdou?

  • Spider/crawler navštíví “site”, ale hledá pouze do určité hloubky

V některých případech indexuje jen část “site”

  • Některé formáty souborů

Momentálně vyhledává PDF soubory pouze Google.http://www.google.com/help/faq_filetypes.html Některé další stroje umí také více formátů, ale tyto funkce nejsou volně přístupné. Vzhledem k rozšiřování služeb je možné, že v době publikování tohoto článku bude tato Další problematické soubory - PPT, DOC, XLS, FLASH, streaming media.

  • Site/stránka je přístupný/á pouze po registraci

    Spider/crawler se neumí zaregistrovat.

  • Firewall nebo jiné zařízení znemožňuje přístup Nejsme vítáni.
  • Dynamicky generované stránky (cgi, javascript, asp, většina stránek s ”?” v URL)

Spider/crawler zjistí ”?” v URL a zastaví se.

  • Autor použil tzv. NO-ROBOT TAG

Některé/všechny spidery/crawlery mají zakázaný přístup.

  • “Dead End Page” - stránka není linkována z žádné jiné stránky, kterou vyhl. stroj zná

Primární způsob procházení Webu spiderem/crawlerem - využívá linky ze známých stránek.

  • Stránka nebyla nahlášena vyhledávacímu stroji Sekundární způsob pro získávání nových stránek
  • Materiál je v javasript pop-up windows Spidery/crawlery často nesledují javasript příkazy
  • Materiál je některými stroji indexován, jinými ne

Neexistují dva stejné vyhl. stroje! http://www.searchengineshowdown.com/

Někdy ovšem více vyhledávacích strojů využívá stejnou databázi. Například All the Web poskytuje svou databázi pro Lycos.

  • Stránka se již od poslední návštěvy spider/crawleru změnila (časové zpoždění)

Běžně spider/crawler vrací na stránku po několika týdnech. Pouze v případech významných serverů se vrací častěji. U vyhledávacích strojů specializovaných na zprávy i několikrát denně.

  • Obsah je konstantně obnovován (Real-Time)

Spiders/spider/crawlers neprocházejí neustále obnovovaný obsah

http://www.trip.com/trs/trip/flighttracker/flight_tracker_home.xsl

  • Obsah je kompletně indexovatelný, ale velikost stránky přesahuje limit

Google 101kB, Altavista 110 kB,AllTheWeb vše

  • Site nebylo funkční, když ho chtěl spider navštívit

Nový obsah není indexován. Nutno doufat, že se spider brzy vrátí.

 

  • Pravý” Neviditený Web

materiál generovaný z databází

často neexistuje unikátní URL

stránka je vytvořena na základě Vašeho požadavku - spidery/crawlery neumí zadávat dotazy

 

Brány pro Neviditelný Web

V podstatě se jedná o adresáře databází, které jsou vytvářeny informačními profesionály. Mají navíc často přidanou hodnotu díky popisu jednotlivých zdrojů.

 

Neviditelný Web & Informační profesionál - co je třeba si uvědomit?

 

Neviditelný Web & Informační profesionál - co je možné dělat?

  • Vytvářejte a zdokonalujte vlastní kolekce
  • Prozkoumávejte pečlivě celé stránky
  • Vytvářejte linky přímo k interface daného zdroje
  • Šetřete čas Vašim uživatelům
  • Udržujte aktuálnost

 

Budoucí trendy

  • Budou vznikat nové brány a sbírky
  • Obsah NW se bude narůstat
  • Stále větší část Webu budou pokrývat vyhledávací stroje
  • Bude docházet k ztrátě funkčnosti individuálních vyhledávacích nástrojů

 

Neviditelný Web - příklady:


Real-Time Informace


Komerční informace


Computer Science


Intelektuální vlastnictví


Slovníky a jazyky


Umění


Cestování


Zdraví a medicína


Novinky a události


Věda


Volný čas

 

Použité zdroje:

SHERMAN Chris, PRICE Gary: The Invisible Web: Uncovering Information Sources Search Engines Can´t See, Medford NJ: Information Today Inc., 2001

World Wide Web


O autorovi:

Od roku 1997 (po ukončení studií) do současné doby pracuje v Knihovně AV ČR v oddělení automatizace/IT, od roku 1998 ve funkci vedoucího. Přednáškové činnosti týkající se IT v knihovnách od roku 1999.

  

AiP logo © 2002 Albertina icome Praha s.r.o.
INFORUM® a IN® jsou registrované ochranné známky. 
Všechna práva vyhrazena.
Aktualizováno 20.05.2002

Grafický design Logo STUDIO aha!

Zpracování dat Digital Art Studio