světNotes.cz

Hledání na webu IBM
Novinky
11.12.2003 - Emil Čelustka

Při přípravě jednoho z článků jsem narazil na problém se starými a novými jmény produktů. O změně brandu jsem už na serveru psal ve článku Lotus Brand Architecture Project v únoru roku 2003. Protože v době přípravy původního článku nebylo o všech jménech rozhodnuto, napadlo mě podívat se, jak práce na nových jménech produktů pokročily. Nepoznamenal jsem si ovšem URL zdroje a proto jsem se vydal hledat článek na webu IBM. Netušil jsem, kolik problémů si tím přivodím.


Neuvěřitelný nepořádek

IBM je velká společnost a rozsah jejího webu tomu odpovídá. Možná je až příliš velký, protože opakovaně narážím na nedostatky a inkonzistence všeho druhu. Je to s podivem, neboť právě IBM nabízí svým zákazníkům ta správná SW řešení. Ale sama je moc nepoužívá. Weby IBM běží na nejrůznějších strojích s nejrůznějšímí operačními systémy, zobrazují data tu pomocí Websphere a servletů, jinde se přistupuje do databází NSF, české stránky jsou dokonce ručně připravované statické HTML ... Není se tedy co divit, že hledání a indexování všech těchto zdrojů vede ke spoustě problémů.


Hledání dokumentu

Přišlo mi vcelku logické zadat do vyhledávacího pole na titulní straně IBM následující 4 slova: lotus brand architecture project. Psáno přesně tak, jak vidíte, tedy malými písmeny, slova oddělená pomocí mezer. A výsledek? 332.763 dokumentů. Ano, čtete správně. 332.763 dokumentů. To není možné, napadlo mě v první chvíli a jal jsem se do výrazu přidávat další slova, o kterých vím, že je dokument obsahoval - tedy: team a workplace. Počet vyhledaných dokumentů překvapivě narostl na 340.944 dokumentů. Ááááha - obrácená logika, ve které jsou hledané výrazy spojovány logickým OR namísto běžného AND. Na samotné slovíčko lotus systém vyhledá pouhých 139.373 dokumentů. Dobře, spojím tedy uvedená slova operátorem AND a zapsal jsem: lotus and brand and archtitecture and project. Jenže tím jsem rozšířil počet hledaných slov o poměrně frekventované slovíčko and a výsledkem bylo 1.127.897 nalezených dokumentů.

Zkusil jsem to tedy jinak. Budu hledat řetězec: "lotus brand architecture project". Výsledek v podobě jednoho dokumentu mě potěšil. Ale ne nadlouho. Získané URL zní developerWorks : Lotus : Technical library : Articles. Tedy stránka z technické knihovny článků, do které systém navíc neumí předat hledaný řetězec. Takže hledám nanovo: lotus - 152 dokumentů. lotus brand - 1 dokument. Všimněte si, že zde je pro změnu použita běžná logika vyhledávání a jednotlivá slova jsou automaticky spojována logickými operátory AND. Výsledkem je dokument nazvaný For Lotus, a Brand New Day zařazený mezi Lotusphere Archives. Ten se mj. zmiňuje o Simplifying Lotus Product Names s odkazem http://www.lotus.com/brand. A to je redirekt vedoucí na URL http://www.lotus.com/engine/jumpages.nsf/wdocs/brand. V tomto dokumentu se pod názvem Easy Reference Guide skrývá hledané PDF s názvem LotusBAP_Easy_Reference_Guide_080703.pdf.

Taky se vám to zdá šílené? Ano, je to hodně šílené. Ostatně jako většina věcí, na které nikdo nedohlíží, o které se starají různí lidé, kteří tytéž soubory ukládají pod různými názvy do různých adresářů a doplňují je různými popisy. Nakonec jsem tedy požadovaný dokument nalezl, ale za jakou cenu?


Jak hledá konkurence?

Nedalo mi to, abych nakonec nevyzkoušel ještě jeden způsob hledání - Google. Výsledky jsou překvapivé. Řetězec: g lotus brand architecture project (používám prohlížeč Opera, kam uvedený řetězec zapíšu do pole pro URL) zobrazil tyto výsledky. Je symbolické, že první dva výsledky nepaří IBM, že třetí zobrazený odkaz je dokument na stránkách IBM, který vlastní vyledávání IBM vůbec nenalezlo, ale který odkaz na požadované PDF obsahuje taky. Všimněte si také, že 4. odkaz patří již zmíněnému článku na našem serveru světNotes.cz. :-)