EFEKTIVNÍ VYHLEDÁVÁNÍ INFORMACÍ ŘÍZENÉ UŽIVATELI

Pavel Kocourek
pavel.kocourek@incad.cz

 

Již tradičně je vyhledávání akcí, která spojuje uživatele s informacemi, které hledají prostřednictvím významu svých dotazů.

V uplynulých deseti letech profitoval infromační trh ze stále se snižujících cen datových úložišť. Počítačové systémy nabízely relativně jednoduché a také levné uchování dat - v databázích, na souborových serverech či emailových archivech. Tato řešení ve svém základním účelu uspěla - poskytla prostředí pro vytváření ohromného množství elektronických informací, které jsou dnes shromažděna v aplikačních "silech".


Prostředí se však změnilo. Současný vývoj dnes určují návratnost intelektuálního vlastnictví stejně tak jako nárůst transakcí. Infrastruktura, která doposud sloužila dobře k ukládání dat, selhává v okamžiku, kdy je potřeba uložené informace efektivně využívat.

Komerční společnosti a státní instituce čelí novým požadavkům na shodu s právními pravidly státu či EU. V dnešní ekonomice založené na znalostech tak vítězí společnosti poskytující svým zaměstnancům i zákazníkům efektivní přístup k informacím.

Vezměme jako příklad tradiční informační infrastrukturu podniku: řetěz hodnoty informací. Na spodní úrovni je produkce informací, na špičce jejich využívání. Jednotlivé úrovně se směrem k užití informací zužují a vytváří pyramidu v souladu se snižujícími se investicemi do jednotlivých úrovní. Ve většině institucí právě nákladná databázová úložiště a legacy architektura rozšiřuje pomyslnou spodní část. Inovativní řešení může spočívat v otočení nákladové struktury pyramidy.

kocourek.jpg (133620 bytes)

Podíváme-li se na obrázek, ve spodní části pyramidy jsou zobrazeny datové zdroje. Fakt, že uložená data různého typu a formátu v podniku zpravidla vyžadují skupinu db architektů, programátorů, manažerů, řadu softwarových licencí a pár high-end serverů, není třeba dodávat.

Na datové zdroje navazují aplikační nástroje, které jsou určeny pro pracovníky, kteří informace organizují, spravují a vyhledávají. Pro ty, kteří zprostředkovávají přístup pro uživatele. Knihovníci, správci aplikací a pracovníci podpory uživatelů tráví většinu svého pracovního času přípravou heslářů, zápisem metadat, správou přístupových práv a vývojem nových informačních služeb.

Na vrcholku pyramidy jsou pak samotní uživatelé: zaměstnanci, analytici, vedení společnosti a také zákazníci hledající informace o produktech.

Jaká bývá v takovém případě situace? Pesimisticky zhodnoceno: neflexibilní, mnohdy pomalý a nákladný přístup k informacím v relačních databázích a „legacy“ systémech. Finančně náročná a subjektivní správa metadat.  Ne zrovna jednoduchá správa a koordinace prostředí. Duplicita práce. A stává se stále, že důležité informace nejsou dostupné… a nebo jsou k dispozici pozdě.

Pokud ale připustíme informační architekturu založenou na moderní vyhledávací platformě, situace v hodnotovém řetězu se může dramaticky změnit.

Řešení spočívá v obrácení pomyslné pyramidy. Zlepšením přístupu k informacím se sníží náklady na jejich vytváření a vlastnictví a také se pravděpodobně zvýší výkonnost podniku.

Informace v okamžiku potřeby

Tradiční pyramida vyrůstá ze zaměření na transakce. Bývalo méně dat… a co víc, většinou byla strukturovaná. To se ale vývojem dost změnilo. Dnešní uživatelé si uvědomují hodnotu včasných a přesných informací a vědí, jak je použít.

Lepší informační služby mají přímý dopad na jejich práci. Lepší přístup k informacím je v podnicích strategickým požadavkem „objevování informací v okamžiku potřeby“ s intuitivním vyhledávacím rozhraním, relevantními výsledky, odezvou ve zlomcích vteřin a pokročilými nástroji pro jejich další zpracování řídí mnoho nových obchodních modelů.

Tradiční informační systémy optimalizují produkci informací a jejích ukládání, ne využívání informací a velmi častou zanechávají potenciální uživatele bez odpovídající podpory. Pro zachování konkurenceschopnosti musí podnik svým zákazníkům a zaměstnancům umožnit co nejlépe dosáhnout a využít informace. Společnosti, které informace využívají, namísto toho, aby je pouze vytvářeli a ukládali, mají velkou a významnou strategickou výhodu.

Vyhledávací řešení

Trh vyhledávacích technologií již přerostl IT oblast. Vyhledávání má stěžejní roli v aplikacích pro objevování informací, BI, KM a v dalších svou výraznou roli postupně získává. Vývoj řídí zejména uživatelská očekávání. Vyhledávání není pouze o nalézání informací. Je výchozím bodem pro uživatele.

Základní pohled na vlastnosti pokročilého vyhledávacího řešení nové generace:

Pohled na souvislosti

  • Vyhledávání je orientováno na nalezení fakt a informací oproti tradičnímu orientovanému na dokumenty. To přináší novou úroveň přesnosti. Nepracuje se se záznamy, ale objekty.
  • Využívá se detekcí témat a entit a vytváří se vazby na strukturu dokumentu (např. věty a odstavce). To umožňuje průzkum výsledků prostřednictvím souvisejících entit.
  • Záměrem je přinést přesné odpovědi (ne pouze reference na dokumenty).

Správa vyhledávání

  • Zahrnuje řešení založené na srovnávání.
  • Obsahuje možnost vytváření vyhledávacích profilů, jejich nastavení na základě vyhledávací zkušenosti uživatelů, včetně nastavování a monitorování relevance vyhledávacího procesu a měření a validace dle různých rolí.
  • Záměrem je splnění očekávání uživatelů a také aplikací pro vyplnění „bussines“ požadavků.

Hodnocení relevance

Cílem hodnocení je vyvážit poměr odezvy a přesnosti. Jak dobře odpovídá okruh odpovědí záměru položeného dotazu.

  • Odezva (recall) – Schopnost vyhledat všechny potenciální objekty.
  • Přesnost (precission) – Schopnost vyhledat pouze relevantní objekty.

Pro hodnocení se používá u pokročilých vyhledávacích řešení řada kritérií. Hodnocení probíhá na úrovni dokumentu, vyhledání samotné pak na úrovni objektu.

Uvedený model hodnocení relevance odpovídá produktu FAST ESP.

  • Aktuálnost – Jak nový je dokument ve srovnání s časem odeslání dotazu?
    Příklad: Nejnovější články jsou první na seznamu vyhledaných.
  • Souvislosti – Důležitost nálezů závisí na místě, kde se v dokumentu nachází.
    Příklad: Nález v názvu dokumentu může být více relevantní než nález v jeho textu.
  • Autorita – Je dokument vyhodnocený jako autoritní pro dané téma nebo dotaz?
    Příklad: Webové odkazy a ostatní odkazy na dokument, citace.
  • Statistické údaje – Jak odpovídá obsah dokumentu dotazu?
    Příklad: Přibližnost (vzdálenost mezi nalezenými výrazy); Analýza četnosti výrazu.
  • Kvalita – Jaká je kvalita dokumentu?
    Příklad: Určené typy dokumentů (tiskové zprávy), definovaná pravidla, hodnocení dokumentu uživateli.
  • Vzdálenost – Vzdálenost od místa, kde je uživatel?
    Příklad: Geografická vzdálenost.

Získávání obsahu a jeho zpracování

  • Vyhledávací aplikace jsou integrovány s řadou dokumentových úložišť, CMS a DMS řešeními a komplexními informačními systémy. To umožňuje zajištění optimalizovaného a pružného přístupu k obsahu a jeho nezbytné zpracování pro vyhledávání.
  • Výsledky vyhledávání jsou jen tak dobré a relevantní jak dobrý a relevantní je pro vyhledávání dostupný obsah.

Zpracování obsahu je klíčovým prvkem pro zvýšení kvality vyhledávací služby. Obsah externího datového zdroje je zpracován a podán vyhledávacímu systému. Před jeho uložením musí být optimalizován pro vyhledávání. Probíhá analýza dokumentů, transformace údajů a řada dalších kroků. „Vyčištěný“ a normalizovaný obsah pomáhá dosažení nejlepší úrovně relevance během vyhledávání.

kocourek2.jpg (59864 bytes)

Extrakce entit z obsahu zahrnuje definovatelné objekty: jména osob, jména institucí, emailové adresy, místa, datumy a další.

Příklad: Neznám jméno osoby, kterou hledám, ale vím, že souvisí s tématem, na které se ptám.

Jazyková relevance

Vyhledávací řešení definují jazykovou relevanci jako využití informací se strukturou gramatiky a varia-cemi daného jazyka.

S porozuměním jazykové relevanci je možné vyhledávat informace, které jsou mimo dosah tradičního hledání pomocí klíčových slov. Využívá se lematizace, slovníků a oborových taxonomií a dalších podpůrných nástrojů.

Lingvistické nástroje pro zpracování obsahu a dotazů výrazně ovlivňují relevanci: odezvu a přesnost vyhledávání.

Kvalita služby

Spolehlivé řešení zajišťuje jak zpracování vstupních dat, tak obsluhu uživatelů. Při zachování výkonu a rychlosti. Lineární škálovatelnost je nezbytná ve třech dimenzích: objemu dat, počtu dotazů za vteřinu (QPS) a aktuálnosti dat.

Integrovatelnost

Možnost připojení existujících služeb, datových zdrojů a aplikačních systémů prostřednictvím standardů (SOA, Web services, Java).

Podpora „rich media“ formátů pro vyhledávání, jakými jsou audio a video.

Bezpečnost

Zabezpečení je u vyhledávacího řešení na třech úrovních: u zpracovávaného obsahu, ve vyhledávací aplikaci a v serverovém prostředí.

Záměrem je jednoduchý přístup k informacím, které jsou v zabezpečeném prostředí a jsou doručeny zabezpečeným způsobem.

Řešení podnikového vyhledávání (ES) se poměrně rychle stává strategickou komponentou informač-
ní architektury pro podniky a instituce. Za posledních pět let se výrazně zvýšila kvalita veřejně dostupných vyhledávačů a ta výrazně posunula očekávání kvality a efektivity interních vyhledávacích služeb od uživatelů.

Poskytovatelé systému spolu s interními IT odděleními se musí pokusit očekávání plnit.

„Je to jako příprava večeře pro návštěvu – buď bude ze surovin, které máte k dispozici, nebo se jich zeptáte, co mají rádi...“

Pro článek byly použity zdroje společnosti FAST Search and Transfer, kterou společnost INCAD zastupuje.

 

 

 


In ITlib. Informačné technológie a knižnice [online], 2007, č. 04 [cit. 2007-12-21].
Dostupné na internete <http://www.cvtisr.sk/itlib/itlib074/kocourek.htm>. ISSN 1336-0779.

ITlib. Informačné technológie a knižnice