Detaily příspěvku konference

Prezentace posterů

Koordinátor: Filip Vojtášek, Albertina icome Praha s.r.o.

Kdy a kde: 28. 5. 2009, 16.20 - 17.05, Vencovského aula

Automatizované ukládaní webových stránek v závislosti na různém výchozím URL

Autor: Ari Pirkola, University of Tampere, Finsko

Spoluautoři:

Tuomas Talvensaari, University of Tampere, Finsko

Plné texty

Abstrakt:

Web crawling refers to the process of gathering data from the Web. Focused crawlers are programs that selectively download Web documents (pages), restricting the scope of crawling to a pre-defined domain or topic. The downloaded documents can be indexed for a domain specific search engine or a digital library. In this paper we describe the focused crawling technique, review relevant literature, and report novel experimental results. Crawling is often started with URLs that point to the pages of central North-American and European universities, research institutions, and other organizations in North-America and Europe. In the experiments we investigated, first, how strongly this central region of the Web is connected to three other large geographical regions of the Web: Australia (top level domain .au), China (.cn), and five South-American countries (.ar, .br, .cl, .mx, and .uy). Test topics were selected from the domains of genomics and genetics that are typical scientific fields. We found that two focused crawling processes, one started from the central region and the other from the region of Australia / China / South-America, overlap only to a small extent, identifying mainly different relevant documents. Document relevance was assessed (1) by a human judge and (2) by assigning probability scores to documents using a search engine. Second, we investigated the coverage (number) of relevant documents obtained for different focused crawling processes started with URLs from the four different geographical regions. The results showed that all regions considered in this study are good starting points for focused crawling in the domains of genetics and genomics since each of them yielded a high total coverage. As genomics and genetics are typical scientific fields we assume that the obtained results are generalizable to other scientific domains. We discuss what implications the observed results have for the selection of crawling strategy in scientific focused crawling tasks.

O autorovi:

Dr. Ari Pirkola (http://www.uta.fi/~liarpi) received his PhD in 1999 in Information Studies at the University of Tampere, Finland. Since then, he has served as a researcher and teacher in the Department of Information studies at the University of Tampere. Currently he is working as a Finnish Academy research fellow. His research areas are information retrieval (IR), in particular cross-language and multilingual information retrieval, language technology applications in IR, Web crawling and Web IR, and genomics IR. Pirkola has authored over 60 scholarly publications, most of which are published in leading international conferences and journals. He is a reviewer of several international journals and conferences and a board member of the National Language Technology Graduate School and the journal Informaatiotutkimus.


Ostatní příspěvky v sekci

Oborová brána TECH – jednotný přístup k EIZ nejen pro techniky

Autor: Alena Brůžková, Národní technická knihovna, Praha

Spoluautoři:

Jitka Hladká, Andrea Kučerová, Národní technická knihovna, Praha

Infogram: nová platforma pro podporu informačního vzdělávání

Autor: Eva Dohnálková, Česká zemědělská univerzita v Praze

Spoluautoři:

Hana Landová, Česká zemědělská univerzita v Praze - Studijní a informační centrum / Univerzita Karlova v Praze - Filozofická fakulta - Ústav informačních studií a knihovnictví

Kurzy v Univerzitní knihovně Svetozara Markovice na téma evaulace vědecké práce

Autor: Aleksandra Popovic, University of Belgrade - University Library "Svetozar Markovic", Srbsko

Spoluautoři:

Stela Filipi-Matutinovic, University of Belgrade - University Library "Svetozar Markovic", Srbsko

Nadstavbové služby pro elektronické informační zdroje s použitím technologie SFX

Autor: Ondřej Fabián, Univerzita Tomáše Bati ve Zlíně

Spoluautoři:

Lukáš Budínský, Univerzita Tomáše Bati ve Zlíně

Hodnocení vědy s využitím citačních rejstříků v Srbsku

Autor: Stela Filipi-Matutinovic, University of Belgrade - University Library "Svetozar Markovic", Srbsko

Spoluautoři:

Aleksandra Popovic, University of Belgrade - University Library "Svetozar Markovic", Srbsko

Hodnocení vědy s využitím citačních rejstříků v Srbsku

Autor: Stela Filipi-Matutinovic, University of Belgrade - University Library "Svetozar Markovic", Srbsko

Spoluautoři:

Aleksandra Popovic, University of Belgrade - University Library "Svetozar Markovic", Srbsko

Oborová brána TECH – jednotný přístup k EIZ nejen pro techniky

Autor: Alena Brůžková, Národní technická knihovna, Praha

Spoluautoři:

Jitka Hladká, Andrea Kučerová, Národní technická knihovna, Praha

Napĺňanie projektu „Vytvorenie siete s informačným prepojením vedeckých, akademických a špeciálnych knižníc vrátane ich modernizácie“.

Autor: Zuzana Halienová, Slovenská národná knižnica, Martin

Elektronický průvodce informacemi z Evropské unie: příručka pro knihovníky a informační pracovníky

Autor: Jitka Hradilová, Karlova univerzita v Praze - Filozofická fakulta - Ústav informačních studií a knihovnictví

Spoluautoři:

Patrick Overy, Univerzita v Exeteru, Velká Británie

Napĺňanie projektu „Vytvorenie siete s informačným prepojením vedeckých, akademických a špeciálnych knižníc vrátane ich modernizácie“.

Autor: Zuzana Halienová, Slovenská národná knižnica, Martin

Aplikace klasických a moderních ontologií při tvorbě znalostních bází lékařských algoritmů

Autor: Adéla Jarolímková, CESNET, z.s.p.o., Praha

Spoluautoři:

Petr Lesný, Kryštof Slabý, Jan Vejvalka, Fakultní nemocnice v Motole, Praha

Infogram: nová platforma pro podporu informačního vzdělávání

Autor: Eva Dohnálková, Česká zemědělská univerzita v Praze

Spoluautoři:

Hana Landová, Česká zemědělská univerzita v Praze - Studijní a informační centrum / Univerzita Karlova v Praze - Filozofická fakulta - Ústav informačních studií a knihovnictví

Elektronický průvodce informacemi z Evropské unie: příručka pro knihovníky a informační pracovníky

Autor: Jitka Hradilová, Karlova univerzita v Praze - Filozofická fakulta - Ústav informačních studií a knihovnictví

Spoluautoři:

Patrick Overy, Univerzita v Exeteru, Velká Británie

Aplikace klasických a moderních ontologií při tvorbě znalostních bází lékařských algoritmů

Autor: Adéla Jarolímková, CESNET, z.s.p.o., Praha

Spoluautoři:

Petr Lesný, Kryštof Slabý, Jan Vejvalka, Fakultní nemocnice v Motole, Praha

Kurzy v Univerzitní knihovně Svetozara Markovice na téma evaulace vědecké práce

Autor: Aleksandra Popovic, University of Belgrade - University Library "Svetozar Markovic", Srbsko

Spoluautoři:

Stela Filipi-Matutinovic, University of Belgrade - University Library "Svetozar Markovic", Srbsko

Nadstavbové služby pro elektronické informační zdroje s použitím technologie SFX

Autor: Ondřej Fabián, Univerzita Tomáše Bati ve Zlíně

Spoluautoři:

Lukáš Budínský, Univerzita Tomáše Bati ve Zlíně