Mikrodátová infraštruktúra v českých informačných systémoch výskumu a vývoja1
Abstrakt: Príspevok obsahuje charakteristiky výsledných dát o výsledkoch, ktoré sú v českom informačnom systéme výskumu a vývoja, a procesy ich zhromažďovania a spracovania. Dáta, použité ako báza pre hodnotenie efektívnosti výskumu a vývoja, sú evidované každoročne od roku 2005. Mikrodáta o výsledkoch v súčasnosti obsahujú 640 000 záznamov výsledkov výskumu a vývoja v štyroch kategóriách. Hodnotenie vedy a výskumu je založené na atribútoch mikrodát výsledkov. Uvádzame charakteristiky výsledných dát o výsledkoch, ktoré sú v českom informačnom systéme výskumu a vývoja, a procesy ich zhromažďovania a spracovania. Dáta použité ako báza na hodnotenie efektívnosti výskumu a vývoja sú od roku 2005 až doteraz. 1. Úvod Informačný systém výskumu a vývoja Českej republiky (v češtine: „Informační systém výzkumu a vývoje“ – IS VaV) je celoštátny IS VaV. Pri financovaní výskumu má v Českej republike významnú úlohu štát. Český CRIS dokumentuje celý proces výskumu, od strategického plánovania financovania až po výsledky. Riadi ho Rada pre výskum a vývoj [1]. V príspevku v krátkosti predstavíme IS VaV, potom budeme venovať pozornosť mikrodátam výsledkov, ich štruktúre a spracovaniu v informačnom systéme. Príspevok sa venuje aj o využitiu mikrodát pri hodnotení výskumu a vývoja [4]. 2. Český informačný systém výskumu a vývoja (IS VaV) Existencia a základné úlohy IS VaV sú zakotvené v zákone č. 130/2002 Sb. O podpore výskumu a vývoja z verejných financií. Ďalej je rozpracovaný v nariadení vlády ČR. IS VaV má tieto základné ciele:
Vstup údajov je povinný. Konkrétne je nariadené, že:
Okrem toho hodnotenie efektívnosti výskumu a vývoja, ktoré sa robí každoročne od r. 2005, poskytuje výskumným organizáciám priamu motiváciu na predloženie výsledkov. IS VaV sleduje tieto ciele:
Nepriamo zhromažďuje aj informácie o:
Podrobnejšie informácie o českom IS VaV sú uvedené v [2]. Údaje sú uvedené na verejnom rozhraní informačného systému [3]. 3. Mikrodáta o výsledkoch Výsledky boli zbierané v RIV od r. 1998. Údaje obsahujú výsledky štátom financovaného výskumu v Českej republike. Teraz, v apríli 2009, je v nich 640 000 záznamov výsledkov, ktoré obsahujú informácie o približne 490 000 výsledkoch. Typy výsledkov a ich atribúty Sú štyri typy výsledkov:
Publikácie tvoria väčšinu výsledkov. Údaje o výsledkoch sa zbierajú vo forme záznamu o výsledku. Tieto záznamy zahŕňajú nasledujúce položky: Základné údaje o každom výsledku (bez ohľadu na typ výsledku):
Typovo špecifické dáta o každom výsledku:
Organizácia, ktorá výsledky dosiahla (predkladajúca
organizácia); Záznamy o výsledkoch sa objavujú na úrovni výskumných inštitúcií (univerzity, výskumné inštitúty, organizácie z oblasti kultúrneho dedičstva, podniky). Na základe zoznamu výskumných aktivít sa záznam postúpi jednému alebo viacerým poskytovateľom štátneho finančného príspevku. Ich úlohou je overiť záznam o výsledkoch a potvrdiť dôležitosť jeho spojenia s vedeckovýskumnými aktivitami, ktoré poskytovateľ financoval. Poskytovatelia štátneho príspevku potom poskytnú overené údaje Rade pre VaV, ktorá ich zaradí do centrálnej databázy. Vyčistenie dát o výsledkoch Je možné, že viaceré organizácie poskytujú záznamy o tom istom výsledku. Je tiež možné, že je viac záznamov o tom istom výsledku z jednej predkladajúcej organizácie: záznamy sa môžu zbierať v rôznych kampaniach zbierania výsledkov, alebo ich poslali rôzni poskytovatelia finančného príspevku. Takáto situácia vzniká priam zákonite. Používatelia však očakávajú, že každý výsledok sa uvádza, počíta alebo sa mu prideľujú body len ako celku. To vedie k požiadavke porovnávať záznamy, ktoré sa vzťahujú k tomu istému výsledku. Aby sa vyhovelo tejto požiadavke, IS VaV podniká tieto kroky:
Úradné záznamy tvoria cenný nástroj zvyšovania kvality kombinovaných údajov. Pomáhajú vyriešiť problém, ako je nejednotná forma vydavateľa alebo odkazov na názov v atribútoch voľného textu.2 Sú užitočné aj pri riešení otázok odkazových údajov, ako je napr. zlý výber dekódovania písmena a pod. Môžeme identifikovať výskyt toho istého výsledku v rôznych záznamoch výsledkov na báze hodnôt určitých atribútov, ktoré tvoria sémantický kľúč výsledku. Do týchto atribútov patrí názov výsledku a typ výsledku. Pri type výsledku musíme brať do úvahy vývoj klasifikačnej schémy počas kampane zbierania údajov. Suma identifikujúca hodnotu sémantického kľúča sa používa ako identifikátor výsledku. Zostavíme tiež spoločné hodnoty niekoľkých základných atribútov výsledku. Patrí sem spoločný názov, spoločný typ a spoločný rok vydania/realizácie. Vyberie sa jedna hodnota z dôležitých záznamov výsledkov. Sú aj novostanovené atribúty, ako je séria organizácií, ktoré poskytli výsledky série poskytovateľov štátneho príspevku. V tomto štádiu sa vo výsledku autorských dát ešte nič nezlaďuje. Použitie mikrodát pri hodnotení VaV Hodnotenie výsledkov VaV výskumnej inštitúcie musí byť založené na jasne stanovených pravidlách. Tieto pravidlá však nesmú byť závislé ani od hodnoteného subjektu či objektu, ani od subjektu, ktorý hodnotí. Ak sa má splniť táto podmienka, jedinou cestou je založiť hodnotenie na atribútoch mikrodát výsledkov. Mikrodáta musia byť správne a overené; iba takéto mikrodáta môžu tvoriť bázu schémy hodnotenia. Riadiace princípy
Postup hodnotenia
Literatúra [1] The R&D Council of the Czech Republic: The Czech
Research and Development Council Website. [2] Dvořák, J.; Souček, M.: The Research and Development Information System of the Czech Republic. In Get the Good CRIS Going : Ensuring Quality of Service for the User in the ERA, Aleš Bošnjak, Maxmilian Stempfhuber (eds.), CRIS2008, proceedings from the 9th International Conference on Current Research Information Systems, Maribor, Slovenia, June 5th – 7th, 2008, IZUM, ISBN 978-961-6133-38-8, pp. 125–130. [3] The data of the R&D Information System of the
Czech Republic. [4] Dvořák, J.; Souček, J.: The Research and Development Efficiency Evaluation in the Czech Republic. In Get the Good CRIS Going: Ensuring Quality of Service for the User in the ERA, Aleš Bošnjak, Maxmilian Stempfhuber (eds.), CRIS2008, proceedings from the 9th International Conference on Current Research Information Systems, Maribor, Slovenia, June 5th – 7th, 2008, IZUM, ISBN 978-961-6133-38-8, pp. 131–139.
Jan Dvořák (jan.dvorak@infoscience.cz)
1 Tento príspevok odznel na medzinárodnej konferencii Informačné systémy o vede v EÚ v CVTI SR a s láskavým dovolením autora a organizátorov konferencie ho prinášame v plnom znení. 2 Na ilustráciu situácie: bolo zistených viac než 160 rôznych spôsobov odkazov na vydavateľstvo ČVUT. 3 Používa sa Journal Citation Report z Web of Science.
In ITlib. Informačné technológie
a knižnice [online], 2009, č. 02 [cit. 2009-06-30]. |