Vecné spracovanie v 21. storočí

Úvod

Vecné spracovanie ako výsledok obsahovej analýzy dokumentu je dôležitým nástrojom uspokojovania rešeršných požiadaviek používateľov knižníc. Je teda dôležitým nástrojom vyhľadávania informácií a prístupu k nim. Naším cieľom v najbližších rokoch bude snaha vytvoriť relatívne jednotný prístup k informáciám v prostredí internetu. Pokúšame sa integrovať tradičný informačný jazyk predmetových hesiel SNK do súčasného procesu vyhľadávania. Predpokladáme, že tak ako v iných krajinách prispeje k tomu i súbor vecných autorít.

Nové informačné technológie a ich vplyv na vyhľadávanie informácií

Vyhľadávanie informácií prešlo za posledných 30 rokov veľkými zmenami, ktoré sú odrazom vývoja v oblasti informačných technológií (disponujeme kvalitnejšími počítačmi, kvalitnejšími počítačovými programami, kvalitnejšími komunikačnými nástrojmi).

Súčasnosť je “poznačená” internetom, ktorý sa vyznačuje rôznou prezentáciou informácií a umožňuje prístup k informáciám rôznym spôsobom. Online katalógy knižníc ponúkajú používateľom nielen listovanie v registroch bibliografických databáz, ale zvyčajne aj prístup aj k plnotextovým dokumentom. Sme teda svedkami vzniku veľmi heterogénneho prostredia z hľadiska prezentácie zdrojov. K závažným problémom, ktoré treba v tejto súvislosti riešiť, patrí popis a sprístupnenie zdrojov v prostredí internetu. Kvalita popisu zdrojov zabezpečuje kvalitu ich sprístupnenia. Je paradoxom, že v tomto heterogénnom prostredí práve toľko diskutované a problematické údaje vecného popisu tvoria prakticky jediný jednotiaci prvok vyhľadávania.

Vytvoriť jednotný prístup k informáciám nie je ľahké, ak je to vôbec možné... Súčasnosť ponúka možné riešenie – štandardizovať pojmy a vytvárať súbory vecných a menných autorít. Riadené slovníky prežívajú akoby svoj návrat na informačnú scénu.

Vyhľadávanie na internete

V odbornej literatúre sa konštatuje, že k čoraz využívanejším nástrojom umožňujúcim efektívne (zdôrazňujem slovo “efektívne”) vyhľadávanie informácií na internete patria predmetové adresáre, ktoré v súčasnosti nazývame informačné brány, tvorené hierarchicky usporiadanými predmetovými kategóriami a podkategóriami, ktoré vytvárajú prvú úroveň vyhľadávania. Druhú úroveň vyhľadávania tvoria vyhľadávacie alebo prieskumové stroje, ktoré vyhľadávajú informácie na základe kľúčových slov, kombinácie týchto slov pomocou Boolovej algebry, pomocou fráz atď. [6].

Vyhľadávanie informácií v OPAC-och knižníc ALEPH 500

(Prieskum vykonaný v apríli 2002)

V súčasných OPAC-och (ALEPH 500, VIRTUA...) sa deje na základe štatisticko-pravdepodobnostných metód, boolovských operátorov (and, or, not)...

Systémy umožňujú vyhľadávanie po slovách – metóda keyword searching, ktorá je veľmi dôležitá z hľadiska vyhľadávania, najmä čo sa týka pozície prívlastku pri podstatnom mene. Táto “technická” metóda spôsobuje, že pozícia prívlastku pri podstatnom mene nie je dôležitá. Alephu 500 je akoby jedno, či v pojme organická chémia je prívlastok “organická” umiestnený pred podstatným menom alebo za ním. Systémový nástroj – vyhľadávanie po slovách veľmi podporuje princíp, ako je kompaktnosť termínov (napr. prirodzený slovosled a uvádzanie termínov v pádových väzbách a frázach...). Je možné vstupovať aj do jednotlivých segmentov predmetového hesla (podhesiel a spresnení).

OPAC Univerzitnej knižnice v Bratislave – Aleph 500

Báza UKB01

Nízku úspešnosť pri vyhľadávaní sme zaznamenali pod ponukou INDEXY (registre), selekčné hľadisko – predmetové heslá:

Vysokú úspešnosť pri vyhľadávaní sme zaznamenali pod ponukou PRIESKUM.

Pri jednoduchom vyhľadávaní nemožno používať logické operátory AND, OR alebo NOT. Ak zadáte výraz z viacerých slov, systém ich automaticky viaže operátorom typu OR (alebo). Ak sa napríklad zadá computer programming, systém vyhľadá tie záznamy, v ktorých sa vyskytuje slovo computer alebo programming. Výsledky sa usporiadajú a zobrazia v poradí relevantnosti.

Nie je možnosť výberu selekčného prvku (autor, názov, predmetové heslo), preto usudzujeme, že systém vyhľadáva slová zo všetkého.

Výsledky prieskumu:

OPAC Univerzitnej knižnice TU v Košiciach – Aleph 500 Databáza kníh

Prešli sme všetky rešeršné ponuky, ktoré systém ponúka. Na pojem chémia organická reagovala ponuka vyhľadávanie – predmetové heslo, kde sa zobrazil väčší počet záznamov. Pojem v prirodzenom slovoslede nebol nájdený.

OPAC Národní knihovny v Prahe – Aleph 500

www.nkp.cz

Báza NKC – Bibliografická báza a katalóg Národní knihovny
Využili sme ponuku vyhľadávanie jednoduché – předmět
zadanie pojmu organická chémia – 766 záznamov,
zadanie pojmu chémia organická – 766 záznamov.

Ponuka vyhľadávanie expertné – předmět:

Ponuka expertné vyhľadávanie – předmět – Česko, rok vydania – 2002:

predmet Česko bol vyhľadaný v záznamoch na všetkých pozíciách poľa 6XX Unimarcu

Na základe uvedených faktov konštatujeme, že ALEPH 500 má také systémové nástroje, ktoré umožňujú vyhľadávať pojem v prirodzenom slovoslede rovnako ako v invertovanom tvare. Diskusia o uchovaní substantívnej inverzie v predmetovom hesle je v elektronickom prostredí ALEPH 500 bezpredmetná.

Pokiaľ systém nevykazuje požadované správanie, je to chybou jeho nastavenia a nie nedostatočnými systémovými nástrojmi.

Tradičné triediace systémy

Ako už bolo uvedené, knižnice využívajú sieť internetu a prezentujú svoje fondy prostredníctvom webových stránok a knižničných portálov. Fondy knižníc môžu byť obsahovo popísané niektorým z tradičných triediacich systémov. Medzi tradičné triediace systémy radíme systém predmetových hesiel, ale i tematické a polytematické tezaury a klasifikačné systémy, ako napr. MDT [1].

petova.gif (36744 bytes)

Konštatujeme, že prostredie internetu z hľadiska prezentácie a vyhľadávania informácií, ako aj systémové nástroje súčasných OPAC-ov (metóda keyword searching), nás vyzývajú prehodnotiť systém triedenia informácií používaný v Slovenskej národnej knižnici. Pred nami stojí úloha integrovať tento tradičný prieskumový systém do súčasného procesu vyhľadávania informácií. Domnievame sa, že sa ho nemusíme vzdať. No zdá sa, že musíme “vylepšiť” alebo “zmodernizovať” informačný jazyk predmetových hesiel.

Do konca roku 2000 platila na Slovensku ČSN 010188, ktorá určovala pravidlá tvorby predmetového hesla. Ústredným princípom spomínanej normy boli voľne vytvárané predmetové heslá striktne na základe substantívnej inverzie v 1. páde množného čísla.

Predmetové heslo sa skladalo zo vstupného – nosného prvku a z ďalších častí – z podhesiel. Vstupný prvok a podheslá vytvárajú štruktúrovaný predmetový reťazec alebo predmetovú vetu, ktorá je usporiadaná podľa vopred daných syntaktických pravidiel (ako ich uvádzala norma). Tendenciou normy bolo pojmy rozkladať (termín psychológia dieťaťa sa rozložil na dva samostatné pojmy: dieťa – psychológia). Toto sú základné charakteristiky tvorby predmetového hesla podľa ČSN 010188.

Norma spôsobila ústup od veľmi rozsiahlych predmetových viet, ktoré charakterizovali obdobie do jej prijatia. Bola dôležitou pomôckou indexácie dokumentov v čase manuálnych, lístkových katalógov, keď dôraz na slovo bol nevyhnutný. Predmetové heslá s dlhými reťazcami boli efektívne v tradičnom prostredí lístkových katalógov a tlačených bibliografických registrov – ich údržba je však veľmi ťažká a znemožňuje štandardizáciu kvôli komplikovanosti aplikačnej syntaxe.

Vykonaný prieskum OPAC-ov slovenských knižníc nám potvrdil i prax zaužívanú v SNK, že zložité, detailné syntaktické pravidlá ČSN 010188 sa nedodržiavajú. A hoci má tento štandard nástroj na riešenie homonymie a synonymie PH, ani tento – vo forme vylučovacích a pridružovacích odkazov (pozri a pozri aj) – sa nedodržuje a za posledné desaťročie sa v praxi uplatňuje len výnimočne. Čo sa dodržiava, je rozklad termínov, najmä v 2. páde: dieťa – psychológia a substantívna inverzia...

Takto tvorený informačný jazyk predmetových hesiel nie je vyhovujúci v elektronickom prostredí a domnievame sa, že je potrebná transformácia predmetových hesiel na moderný informačný jazyk predmetových hesiel, pokiaľ chceme byť používateľsky ústretoví. Zároveň by malo dôjsť k integrácii tohto informačného jazyka do súčasného procesu vyhľadávania v prostre-dí internetu.

Transformácia a integrácia predmetových hesiel v podmienkach internetu

Mala by nastať v troch oblastiach vzhľadom na tradičný triediaci systém predmetových hesiel, ktorý SNK používa. Cieľom takto upraveného triediaceho systému je účinnejšia rešeršná stratégia v nových technických podmienkach. Sú to tieto oblasti: tvar a voľba lexikálnych jednotiek, zjednodušenie aplikačnej syntaxe a unifikácia pojmov.

1. Tvar a voľba lexikálnych jednotiek . Úloha information retrieval language je iná vo full text systems a iná v bibliographical databasis. Výber lexikálnych jednotiek je potrebné vykonať tak, aby sa umožnila perspektívne priama väzba i na plnotextové dokumenty. Podmienkou je dodržiavanie prirodzeného slovosledu a kompaktnosti termínov. Tieto dve požiadavky sú jasne podporené systémovými nástrojmi súčasných OPAC-ov – keyword searching.

2. Zjednodušenie aplikačnej syntaxe. PH bude mať jednoduchú, až minimálnu štruktúru. Vyžaduje si to elektronické prostredie i vzhľadom na možnosť aplikácie na rozličné MARC-ové formáty, ako aj preto, že dlhé reťazce PH sú nevýhodné pri konverzii z jednej verzie, resp. z jedného systému do druhého. Hlavnou podmienkou je však používateľ našich OPAC-ov, ktorý podľa prieskumov OCLC i Národní knihovny ČR vyhľadáva v najväčšej miere zásadne po slovách, vníma pri listovaní – browsing – maximálne prvé 2 – 3 pozície.

3. Unifikácia. Voľne tvorené predmetové heslá postupne nahradia unifikované – štandardizované tvary vecných autorít. Štandardizácia je nevyhnutným nástrojom zvládnutia heterogénneho prostredia internetu (prelínanie bibliografických registrov s plnými textmi) a nástrojom vyhľadávania v súbornom katalógu.

Unifikovaný pojem v autoritatívnom zázname je previazaný s notáciou MDT MRF a anglickým ekvivalentom. Medzi lexikálnymi jednotkami v súbore vecných autorít určujeme i sémantické vzťahy – ekvivalencie (preferované a nepreferované pojmy), hierarchie (vzťahy nadradenosti a podradenosti) a vzťah asociácie.

Dôležitou súčasťou záznamu sú definície, ktoré vymedzujú rozsah pojmu v univerzálnom systéme.

V tejto súvislosti chcem podotknúť, že by bolo ideálne, keby každá špecializovaná knižnica na Slovensku vytvárala svoj vlastný, odborovo špecializovaný súbor vecných autorít (podmienkou je dodržať avizované pravidlá tvorby lexikálnych jednotiek – prirodzený jazyk a kompaktnosť termínov) a sprístupnila ho prostredníctvom internetu. SNK vzhľadom na univerzálnosť fondu bude štandardizovať pojmy, ktoré obsahujú jej databázy.

Spolupráca s inými knižnicami na tvorbe súboru národných autorít je možná na báze konzultačnej pomoci. Pred SNK stojí úloha štandardizovať predmetové heslá svojich databáz ako databáz odrážajúcich univerzálny fond SNK.

Zdrojom autoritatívnych foriem vecných autorít je pre nás slovenský preklad MDT MRF a báza vecných autorít – AUV Národní knihovny v Prahe.

Záver

Môžeme konštatovať, že vecné spracovanie prechádza pod vplyvom nových informačných technológií radikálnymi zmenami. Je nevyhnutné ich akceptovať, pokiaľ nechceme zahatať prístup do informačného sveta nášmu používateľovi.

Na Slovensku sme prijali AACR2, pripravujeme prechod z UNIMARC-u na MARC 21. Princípy LCSH ako medzinárodne uznávaného štandardu pre vecné spracovanie budú ďalším normatívnym dokumentom, o ktorý sa budeme opierať.

Ukazuje sa, že riadený prístup k informáciám je možné vybudovať vhodnou integráciou tradičných informačných triediacich systémov, ale sa domnievame, že transformácia týchto tradičných nástrojov v uvedených oblastiach je nevyhnutná.

Rovnako sa nazdávame, že riadený slovník je dlhodobým užitočným pomocníkom knižníc aj informačných pracovníkov. V USA aj v iných vyspelých krajinách informačného sveta už dlhšie než sto rokov zaisťuje dostatočný objem a presnosť vyhľadávaných informácií. Dokonca i vo webovom prostredí, kde prevláda vyhľadávanie podľa kľúčových slov alebo voľného textu, môže riadený slovník zohrať významnú úlohu. Riadený slovník predmetových hesiel sa odlišuje od klasického tezaura práve schopnosťou viazať (prekoordinovane alebo postkoordinovane) na vstupné prvky systému podheslá alebo tematické spresnenia a pritom nerozkladať (neatomizovať) ustálené slovné spojenia a tým približovať formalizovaný jazyk predmetových hesiel čo najviac prirodzenému jazyku.

Zoznam bibliografických odkazov:

  1. Balíková, Marie: Problematika věcného pořádaní informací a jejich zpřístupnění. In Národní knihovna, roč. 12, 2001, č. 3, s. 175-186.
  2. Balíková, Marie: Aplikace Library of Congress Subject Headings System v Národní knihovně ČR. In Národní knihovna, roč. 12, 2001, č. 4, s. 303-305.
  3. Balíková, Marie: Změna koncepce věcného zpracování v Národní knihovně ČR, 1998.
  4. ČSN 010188. Tvorba předmětových hesel. Praha : Úřad pro normalizaci a měření, 1982. 33 s.
  5. Guidelines for Subject Authority and Reference Entries. Munchen : K. G. Saur, 1993.
  6. Makulová, Soňa: Vyhľadávanie informácií v roku 2000 alebo od kvantity ku kvalite, 2000 (prednáška na 6. medzinárodnej konferencii Internet v riadení a obchode firmy v dňoch 25. a 26. októbra 2000 v Bratislave na tému Vyhľadávanie informácií v roku 2000 alebo od kvantity ku kvalite).
  7. UNIMARC/Authority. Martin : Matica slovenská – Slovenská národná knižnica, 1996.
  8. Library of Congress Subject Headings, 1992.
  9. CASLIN 2001: Document Description and Access: A New Challenge. Praha : Knihovna Akademie věd ČR, 2001. 157 s.
  10. www.snk.sk
  11. Chan, Lois Mai. Subject Categorization of Web Resources. Pracovní materiály. In CASLIN 2001. roč. 8, 2001, s. 47-54.
  12. http://sigma.nkp.cz:4505/ALEPH0/-/start/auv10

Mgr. Anna Peťová
(petova@snk.sk)
Slovenská národná knižnica v Martine

 


http://www.cvtisr.sk/itlib/itlib024/petova.htm
ITlib. Informačné technológie a knižnice