Efektívny prieskum webu v CVTI SR


Náplňou práce oddelenia informačných služieb a referenčných systémov CVTI SR (ODIS) je spracovávanie informačných prieskumov z báz dát, jednak z vlastných fondov, ako i z fondov iných informačných inštitúcií. Popri vyhľadávaní odborných informácií v klasických komerčných databázových centrách, ako sú Dialog, STN International či informačnej službe OCLC/FirstSearch, vzniká s rozvojom internetu stále naliehavejšia potreba intenzívneho využívania verejne dostupných informačných zdrojov nachádzajúcich sa v tomto prostredí, špeciálne v systéme World Wide Web (WWW).

WWW bol pôvodne vytvorený preto, aby poskytol vhodný nástroj na výmenu informácií pre skupinu vedcov. Behom krátkej doby však web prerástol pôvodný zámer. Dnes priestor tohto systému zapĺňajú miliardy stránok s informáciami najrôznejšieho druhu, ktoré využívajú používatelia po celom svete na prácu, štúdium, zábavu, obchod a celý rad ďalších aktivít. Pokusy nájsť vhodné služby alebo informácie iba prostredníctvom prechádzania z jedného dokumentu na druhý pomocou hypertextových odkazov vedú väčšinou k tomu, že sa v obrovskom množstve informácií stratí používateľ ako v bludisku. Keďže obsah tohto informačného priestoru nie je evidovaný v žiadnom úplnom katalógu alebo registri s použitím štandardného jazyka (deskriptory podľa tezaura, predmetové heslá a pod), tak ako to poznáme z knižničných katalógov alebo bibliografických báz dát, je informačné bohatstvo internetu dostupné iba tomu, kto pozná účinné nástroje vyhľadávania a navigovania.

S rozvojom systému WWW je spojený i rozvoj nástrojov na uľahčenie orientácie v tomto prostredí. Väčšina používateľov internetu (hlavne knihovnícko-informačnej komunity) má určité skúsenosti s tým, ako hľadať informácie v klasických informačných zdrojoch – katalógoch knižníc, bázach dát či encyklopédiách. Tieto zdroje sa vyznačujú určitou štandardnou úrovňou kvality, ktorá prácu s informáciami uľahčuje. Sieť internet poskytuje prístup k obdobným zdrojom, ale k ich hľadaniu a využívaniu nie je možné pristupovať rovnako.

Vyhľadávacie nástroje umožňujúce orientáciu v prostredí WWW pribúdajú a zanikajú, menia sa ako ostatné internetové zdroje. Je preto do určitej miery obtiažne ich správne a efektívne využívať. Každý z nástrojov slúži trochu inému účelu a líšia sa od seba tiež ponukou prostriedkov, ktorými je možné prehľadávanie internetu vykonávať. Pri spracovávaní informačných prieskumov v ODIS-e CVTI SR sme ako informační špecialisti vyzývaní k tomu, aby sme hľadali čo najefektívnejšie spôsoby vyhľadávania v internete, aby sme v tomto prostredí neblúdili a “nesurfovali”, ale v čo najkratšom čase našli vysoko kvalitné odborné informácie, ktoré sú mnohokrát stratené v množstve nekvalitných informačných zdrojov.

Vyhľadávacie nástroje, ktoré využívame, môžeme v princípe rozdeliť do naskledujúcich skupín:

  1. predmetovo orientované nástroje – predmetové adresáre, virtuálne knižnice,
  2. prieskumové stroje,
  3. metainformačné systémy,
  4. špecializované nástroje,
  5. vyhľadávacie služby na báze inteligentných agentov.
  1. Predmetovo orientované nástroje využívame na prehľadávanie WWW prostredníctvom hierarchicky usporiadaného systému. Tento systém je vytváraný dokumentmi zoradenými podľa tematiky na základe manuálneho zberu dát pri zohľadnení určitých kritérií hodnotenia ich kvality. Tieto zdroje je vhodné používať vtedy, ak predmet, o ktorý sa zaujímame, vieme zaradiť do príslušnej kategórie systému a nevyžadujeme rozsiahly prieskum s abstraktmi dokumentov. Najúplnejším adresárom webu, ktorý k 1. 5. 2001 sprístupňoval 2 610 000 webovských sídiel, je Open Directory Project na adrese http://dmoz.org. Dokumenty sú členené do 366 048 kategórií, ktoré sú doplňované 36 466 dobrovoľnými odborníkmi. Dobré skúsenosti máme i s najstarším adresárom Yahoo ( www.yahoo.com ), ktorý sa z klasického predmetového adresára mení na portál, ponúkajúci okrem vyhľadávacieho nástroja i doplnkové služby. K odborným informáciách technického charakteru nám slúžia i tematicky orientované adresáre pre jednotlivé oblasti vedy a techniky (napríklad pre chémiu – www.chemdex.com). Z virtuálnych knižníc najčastejšie využívame The World Wide Web Virtual Library ( www.vlib.org ), Britannicu ( www.britannica.com ) alebo tematicky orientované knižnice, napríklad Edinburgh Engineering Virtual Library ( www.eevl.ac.uk ).
  2. Na vzdelávanie, výskum a profesionálny rozvoj je zameraná internetová služba Resource Discovery Network  www.rdn.ac.uk ), ktorá začala pracovať v januári 1999 a kde sú vybrané zdroje popísané odborníkmi z univerzít vo Veľkej Británii a v spolupracujúcich organizáciách. Ide o katalóg, ktorý obsahuje okolo 20 000 opisov vysokokvalitných zdrojov a neustále sa rozširuje a vyvíja o nové predmetové skupiny. V súčasnosti je táto služba vytváraná piatimi záujmovými centrami, ktoré sú tvorené jednotlivými organizáciami alebo konzorciami organizácií (knižnice, akademické, výskumné a profesijne zamerané organizácie). Tieto centrá pracujú podľa svojich vlastných pravidiel a poskytujú vstupnú bránu k internetovým zdrojom v svojich predmetových oblastiach, ako i ďalšie doplnkové elektronické služby. Pokrývajú inžinierske odbory, humanitné vedy, sociálne vedy, obchod, právo, zdravotníctvo i vedy o živej prírode.

  3. Na rozdiel od predmetových adresárov a knižníc, prieskumové stroje sú založené na automatizovanom zbere dát, ktoré sú sústreďované do databázy, a ich základnou funkciou je možnosť hľadania prostredníctvom kľúčových slov. Takýchto nástrojov je v súčasnosti niekoľko tisíc a využívame ich vtedy, keď chceme nájsť niečo špecifické a rýchlo, keď chceme vyhľadať toľko informácií, koľko je možné, a keď sme schopní posúdiť kvalitu výsledku. Najlepšie skúsenosti máme so strojmi GOOGLE ( ww.google.com ), ktorý je vybavený relevančným rankingom poukazujúcim na určité kvalitatívne hľadisko zdroja, FAST ( www.bos2.alltheweb.com ), AltaVista ( www.altavista.com ), WebTop ( www.webtop.com ) a Northern Light ( www.northernlight.com ).
  4. Z metainformačných systémov, ktoré vznikli preto, aby bolo možné jedným príkazom prehľadať čo najväčší priestor internetu, využívame hlavne nástroj Profusion. Od januára 2001 je sprístupnená jeho beta verzia na adrese http://beta.profusion.com. Tento vyhľadávací nástroj, podobne ako iné tohto druhu, nemá vlastnú bázu dát, ale využíva databázy iných systémov. Zadaná požiadavka je odovzdaná na súbežné spracovanie niekoľkými vyhľadávacími službami, ktoré máme možnosť si voliť. Takáto služba na jednej strane urýchľuje vyhľadávanie, ale má zmysel len pri hľadaní všeobecnejších tém, pretože podrobne zadanú požiadavku môžu rôzne nástroje interpretovať rôzne.
  5. Efektívnym spôsobom získavania informácií z prostredia WWW je využívanie vyhľadávacích nástrojov špecializovaných na určitý informačný priestor. Ide napríklad o hľadanie osôb ( http://peoplesearch.net , www.whowhere.lycos.com ), adries elektronickej pošty ( www.emailfinder.com ), diskusných skupín ( http://groups.google.com ), firiem ( Europages – www.europages.com, www.superpages.com atď.) alebo o tematicky orientované špecializované služby (ChemGuide – www.fiz-chemie.de/en/datenbanken/chemguide,   Energysearch – www.energysearch.com, iCivilEngineer – www.icivilengineer.com atď.) Najnovším nástrojom na vyhľadávanie vedeckých informácií je od 1. apríla 2001 SCIRUS ( www.scirus.com ), ktorý je produktom firmy Elsevier Science a mapuje vyše 60 miliónov vedecky orientovaných stránok, pričom je schopný prečítať i súbory typu PDF a Postscript.

    Okrem verejne prístupných a indexovateľných webových dokumentov umožňuje sieť internet i prístup k obrovskému množstvu ďalších informácií, pre ktoré je v literatúre zaužívaný termín “neviditeľný web” alebo “hlboký web”. Ide o informácie, ktoré sú uložené v bázach dát a odhaduje sa, že počet dokumentov, ktoré nemôžu byť vyhľadané prostredníctvom tradičných vyhľadávačov, je až päťstonásobne väčší. Počet báz dát skrytých v “hlbokom webe” dosahuje počet 200 000 a odhaduje sa, že kvalita informačných zdrojov v tomto priestore je až 1000-krát vyššia ako u “viditeľného” webu. Prístup k týmto informáciám realizujeme na oddelení ODIS prostredníctvom služieb Complete Planet  ( www.completeplanet.com ) a InvisibleWeb ( www.invisibleweb.com ).

  6. Najefektívnejšími vyhľadávacími službami, ktoré využívame na našom pracovisku, sú služby na báze inteligentných agentov. Ide o samostatné programy, ktoré sa dajú nainštalovať na lokálny počítač, umožňujúce rýchly prístup k vysokokvalitným, relevantným informáciám. V súčasnosti pri spracovávaní informačných prieskumov používame dva takéto programy. Zakúpili sme program COPERNIC Pro 2001, ktorý slúži pre potreby profesionálnych rešeršérov, ponúkajúci podrobné členenie do kategórií, prehľadný interfejs, automatickú aktualizáciu a spracovanie požiadaviek, odstraňujúci mŕtve linky a zasielanie výsledkov e-mailom. Voľne prístupná základná verzia tohto programu sa nachádza na adrese www.copernic.com. Vo fáze jednania je i zakúpenie produktu BullsEye Pro firmy Intelliseek, Inc., ktorá je vedúcim providerom infraštruktúry pre inteligentné portály. I táto firma ponúka bezplatnú verziu na svojej domácej stránke.

Pri mohutnom náraste webových serverov sa ukazuje, že jedine kvalitné vyhľadávacie nástroje a ich dobrá znalosť môžu uľahčiť orientáciu v obrovskom množstve sprístupňovaných informácií rôznorodého obsahu a kvality. Na zoznámenie sa s jednotlivými vyhľadávačmi môžeme odporučiť navštíviť webovú stránku Search Engine Watch ( http://searchenginewatch.com/links ), ktorá tvorí vstupnú bránu do sveta vyhľadávacích nástrojov. Záleží len na každom informačnom špecialistovi, ktorý nástroj si vyberie, aký bude zodpovedať jeho profesijnej orientácii a spĺňať nároky na vyhľadávacie kritériá. Skúsenosti ukazujú, že kvalitný informačný prieskum nie je možné spracovať s využitím iba jedného nástroja. Nakoľko každý mapuje len časť WWW priestoru, je vhodné využiť aspoň dva-tri, porovnať výsledky, vyhodnotiť kvalitu nájdených dokumentov a až potom vyhotoviť záverečnú správu. I keď kvalita voľne prístupných informácií nedosahuje úroveň tých, ktoré sú obsiahnuté v komerčne prístupných bázach dát a nemôže ich nahrádzať, hlavne čo sa týka vedecko-technických informácií, predsa len sa oplatí venovať čas i námahu hľadaniu tých, ktoré sú stratené v bludisku internetu a zviditeľňovať ich pre čo najväčší počet záujemcov túžiacich po ďalšom odbornom raste.

Alena Ďurišová

 


http://www.cvtisr.sk/itlib/itlib012/durisova.htm
ITlib. Informačné technológie a knižnice