Vyhledávač

Z MiS

(Rozdíly mezi verzemi)

Přejít na: navigace, hledání

Verze z 20. 11. 2014, 17:14

Obsah

1 Typy vyhledávačů
2 Funkce fulltextového vyhledávače
3 Relevance fráze
4 Význam dokumentu
5 Historie vyhledávačů
6 Tipy pro vyhledávání

Typy vyhledávačů

Katalogový vyhledávač

firmy.seznam.cz
Historicky starší varianta.
Obvykle pevně dané kategorie, podle kterých se třídí.
Odkazy zařazují obvykle lidé.
Někdy se za umístění do katalogu platí.
Příklad: Firmy.cz (součást Seznamu.cz)

Fulltextový vyhledávač

„Katalog“ se vytváří automaticky podle četnosti výskytu slov ve stránce a dalších indicií.
Příklady: Seznam.cz, Google.com.

Myšlenka: stránky, kde se často vyskytuje slovo „klavír“ se budou nejspíš týkat klavírů a měly by tedy být vráceny při dotazu „klavír“ na prvním místě. ;)‏

Metavyhledávač

Agreguje výsledky více vyhledávačů.

Funkce fulltextového vyhledávače

Vytváření indexu (databáze)

prochází stránky automaticky
- „robot“ pro stahování stránek,
- analýza stránek, hledání frází.
o přečtených stránkách si udržuje statistiku významu frází pro danou stránku
- tabulka výskytů frází v dokumentech,
- umístění frází ve stránce/dokumentu,
- ...
hodnotí význam stránek (page-rank)
- podle počtu odkazů na stránku a významu stránek, které se na tuto odkazují.

Zpracování dotazu

Převod zadaných slov na fráze,
- vyřazení krátkých slov
- převod na synonyma
- lemmatizace (nalezení kořene slova)
- derivace
  - odstranění skloňování, časování
- ...
Podle indexu spočítá pro každý dokument „ohodnocení“ jeho relevance vzhledem k dotazu
- pro každou frázi procházíme seznam dokumentů, které ji obsahují,
- kontrolujeme, zda dokument vyhovuje zbytku dotazu,
- u vyhovujících dokumentů zhodnotíme „relevanci“.
Promítné hodnocení významu stránek
Vypíše stránky s nejlepším hodnocením

Moduly fulltextového vyhledávače

URL server
- při čtení dokumentu získává URL adresy a dává je crawleru,
Vyhledávací robot (crawler)
- stahování nových stránek, ukládá do repository (úložiště),
idexovač: analýza obsahu stránek, získává:
- odkazy na dosud neznámé stránky,
- hledané fráze, jejich umístění atd.
URL resolver
- převádí všechny tvary URL adres na ID dokumentů,
- generuje page-rank.
Třídič: tvorba invertovaného seznamu.
Hodnocení stránek
- výpočet page-rank
Úložiště (repository)
- Databáze URL adres
- Archiv stránek
Slovník
- hledání synonym atd.
Index (databáze, invertovaný seznam)
- „tabulka“
- udává, jak je který termín významný pro danou stránku

Relevance fráze

Jak významná je hledaná fráze pro dokument?

Vliv má

kolikrát se fráze v dokumentu vyskytuje?
je uvedena v názvu stránky?
je uvedena v hlavičce v keywords? (někdy se záměrně ignoruje)
je uvedena v adrese?
je na stránce fráze zvýrazněná?
…

Význam dokumentu

Při množství stránek v dnešním Internetu je třeba hodnotit stránky ještě jinými způsoby než jen podle výskytu hledaných frází.

Page-rank

Algoritmus představený poprvé ve vyhledávači Google.
Dnes implementují v nějaké formě všechny fulltextové vyhledávače.

Jak významný je dokument?

Kolik velkých stránek (stránek s dobrý hodnocením) odkazuje na dokument?
Kolik odkazů na dokument máme?

Hodnotí se také další vlivy

Je dokument validní?
Není v dokumentu nápadně mnoho výskytů stejného slova?
Je dokument dobře strukturován?
…

Historie vyhledávačů

Google (1998)

příklad fulltextového vyhledávače,
vznikl na základě vědecké práce,
autoři Sergey Brin a Larry Page, Stanfordská univerzita.

Tipy pro vyhledávání

ne předložky a spojky, jednopísmenná slova
jen podstatná slova
nejdůležitější slova první

Pokročilé vyhledávání

Vyhledat nějaké slovo → ikona „ozubené kolečko“ → pokročilé vyhlevádání
site: podsíť, ve které se vyhledává

VOŠ site:www.oauh.cz

filetype: typ souboru
- speciálně vyhledávání obrázků
Uvozovky — hledání přesné fráze — slova se musí vyskytovat v tomto pořadí:

"obchodní škola"

Konkrétní umístění fráze:
- v titulku stránky, v adrese, v textu stránky,…
Omezení stáří dokumentu.
Znaménko „minus“ znamená vyloučení.
1. Hledáme stránky, obsahující slovo virus a neobsahující přitom slovo internet.
2. Hledáme slovo VOŠ někde jinde než na stránkách OAUH.cz:

virus –internet
VOŠ –site:www.oauh.cz

@@ Řádka 1: / Řádka 1: @@
 [[Category:VSE]][[Category:CRI]][[Category:Internet]][[Category:Informatika]][[Category:Stránky s obrázky]]
-== Historie vyhledávačů ==
+== Typy vyhledávačů ==
-; Google (1998)
+=== Katalogový vyhledávač ===
-*příklad fulltextového vyhledávače,
-* vznikl na základě vědecké práce,
-*autoři Sergey Brin a Larry Page, Stanfordská univerzita.
-== Katalogový vyhledávač ==
 *firmy.seznam.cz
 *Historicky starší varianta.
@@ Řádka 15: / Řádka 10: @@
 *Příklad: [http://www.firmy.cz Firmy.cz] (součást Seznamu.cz)
-== Fulltextový vyhledávač ==
+=== Fulltextový vyhledávač ===
 *„Katalog“ se vytváří automaticky podle četnosti výskytu slov ve stránce a dalších indicií.
 *Příklady: [http://www.seznam.cz Seznam.cz], [http://www.google.com Google.com].
 <div class="Poznamka">
-Myšlenka: stránky, kde se často vyskytuje slovo „klavír“ se budou nejspíš týkat klavírů a měly by tedy být vráceny při dotazu „klavír“ na prvním místě. ;)‏
+Myšlenka: stránky, kde se často vyskytuje slovo „klavír“ se budou nejspíš týkat klavírů a měly by tedy být vráceny při dotazu „klavír“ na prvním místě. ;)‏</div>
-</div>
-; Postup vytváření indexu (databáze)
+=== Metavyhledávač ===
+*Agreguje výsledky více vyhledávačů.
+== Funkce fulltextového vyhledávače ==
+=== Vytváření indexu (databáze) ===
 *prochází stránky automaticky
 **„robot“ pro stahování stránek,
@@ Řádka 33: / Řádka 32: @@
 ** podle počtu odkazů na stránku a významu stránek, které se na tuto odkazují.
-[[File:vyhledavac.png]]
+=== Zpracování dotazu ===
-; Zpracování dotazu
 * Převod zadaných slov na fráze,
 **vyřazení krátkých slov
@@ Řádka 50: / Řádka 47: @@
 * Vypíše stránky s nejlepším hodnocením
-; Moduly fulltextového vyhledávače
+=== Moduly fulltextového vyhledávače ===
+[[File:vyhledavac.png]]
 *URL server
 ** při čtení dokumentu získává URL adresy a dává je crawleru,
@@ Řádka 73: / Řádka 72: @@
 **udává, jak je který termín významný pro danou stránku
-== Relevance ==
-*Jak významná je hledaná fráze pro dokument:
+== Relevance fráze ==
-**kolikrát se vyskytuje,
+*Jak významná je hledaná fráze pro dokument?
-**je v názvu?
+; Vliv má:
-**…
+* kolikrát se fráze v dokumentu vyskytuje?
+* je uvedena v názvu stránky?
+* je uvedena v hlavičce v ''keywords''? (někdy se záměrně ignoruje)
+* je uvedena v adrese?
+* je na stránce fráze zvýrazněná?
+* …
 == Význam dokumentu ==
-; page-rank
+Při množství stránek v dnešním Internetu je třeba hodnotit stránky ještě jinými způsoby než jen podle výskytu hledaných frází.
+; Page-rank
 * Algoritmus představený poprvé ve vyhledávači Google.
 * Dnes implementují v nějaké formě všechny fulltextové vyhledávače.
 ; Jak významný je dokument?
-*Kolik velkých stránek odkazuje na dokument,
+* Kolik velkých stránek (stránek s dobrý hodnocením) odkazuje na dokument?
-*kolik odkazů na dokument máme,
+* Kolik odkazů na dokument máme?
-* jak významné dokumenty na tento dokument odkazují,
-*…
+; Hodnotí se také další vlivy:
+* Je dokument validní?
+* Není v dokumentu nápadně mnoho výskytů stejného slova?
+* Je dokument dobře strukturován?
+* …
+== Historie vyhledávačů ==
+; Google (1998)
+*příklad fulltextového vyhledávače,
+* vznikl na základě vědecké práce,
+*autoři Sergey Brin a Larry Page, Stanfordská univerzita.
-== Metavyhledávače ==
-*Agregují výsledky více vyhledávačů
 == Tipy pro vyhledávání ==

Vyhledávač

Verze z 20. 11. 2014, 17:14

Obsah

Typy vyhledávačů

Katalogový vyhledávač

Fulltextový vyhledávač

Metavyhledávač

Funkce fulltextového vyhledávače

Vytváření indexu (databáze)

Zpracování dotazu

Moduly fulltextového vyhledávače

Relevance fráze

Význam dokumentu

Historie vyhledávačů

Tipy pro vyhledávání

Osobní nástroje

Jmenné prostory

Varianty

Zobrazení

Akce

Hledat

Výuka

Navigace

Nástroje