Vyhledávač
Z MiS
(Rozdíly mezi verzemi)
m (→Tipy pro vyhledávání: Oprava vzhledu) |
(Oprava struktury) |
||
Řádka 1: | Řádka 1: | ||
[[Category:VSE]][[Category:CRI]][[Category:Internet]][[Category:Informatika]][[Category:Stránky s obrázky]] | [[Category:VSE]][[Category:CRI]][[Category:Internet]][[Category:Informatika]][[Category:Stránky s obrázky]] | ||
− | == | + | == Typy vyhledávačů == |
− | + | === Katalogový vyhledávač === | |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | == Katalogový vyhledávač == | + | |
*firmy.seznam.cz | *firmy.seznam.cz | ||
*Historicky starší varianta. | *Historicky starší varianta. | ||
Řádka 15: | Řádka 10: | ||
*Příklad: [http://www.firmy.cz Firmy.cz] (součást Seznamu.cz) | *Příklad: [http://www.firmy.cz Firmy.cz] (součást Seznamu.cz) | ||
− | == Fulltextový vyhledávač == | + | === Fulltextový vyhledávač === |
*„Katalog“ se vytváří automaticky podle četnosti výskytu slov ve stránce a dalších indicií. | *„Katalog“ se vytváří automaticky podle četnosti výskytu slov ve stránce a dalších indicií. | ||
*Příklady: [http://www.seznam.cz Seznam.cz], [http://www.google.com Google.com]. | *Příklady: [http://www.seznam.cz Seznam.cz], [http://www.google.com Google.com]. | ||
<div class="Poznamka"> | <div class="Poznamka"> | ||
− | Myšlenka: stránky, kde se často vyskytuje slovo „klavír“ se budou nejspíš týkat klavírů a měly by tedy být vráceny při dotazu „klavír“ na prvním místě. ;) | + | Myšlenka: stránky, kde se často vyskytuje slovo „klavír“ se budou nejspíš týkat klavírů a měly by tedy být vráceny při dotazu „klavír“ na prvním místě. ;)</div> |
− | </div> | + | |
− | + | === Metavyhledávač === | |
+ | *Agreguje výsledky více vyhledávačů. | ||
+ | |||
+ | |||
+ | == Funkce fulltextového vyhledávače == | ||
+ | === Vytváření indexu (databáze) === | ||
*prochází stránky automaticky | *prochází stránky automaticky | ||
**„robot“ pro stahování stránek, | **„robot“ pro stahování stránek, | ||
Řádka 33: | Řádka 32: | ||
** podle počtu odkazů na stránku a významu stránek, které se na tuto odkazují. | ** podle počtu odkazů na stránku a významu stránek, které se na tuto odkazují. | ||
− | + | === Zpracování dotazu === | |
− | + | ||
− | + | ||
* Převod zadaných slov na fráze, | * Převod zadaných slov na fráze, | ||
**vyřazení krátkých slov | **vyřazení krátkých slov | ||
Řádka 50: | Řádka 47: | ||
* Vypíše stránky s nejlepším hodnocením | * Vypíše stránky s nejlepším hodnocením | ||
− | + | === Moduly fulltextového vyhledávače === | |
+ | [[File:vyhledavac.png]] | ||
+ | |||
*URL server | *URL server | ||
** při čtení dokumentu získává URL adresy a dává je crawleru, | ** při čtení dokumentu získává URL adresy a dává je crawleru, | ||
Řádka 73: | Řádka 72: | ||
**udává, jak je který termín významný pro danou stránku | **udává, jak je který termín významný pro danou stránku | ||
− | == Relevance == | + | |
− | *Jak významná je hledaná fráze pro dokument: | + | == Relevance fráze == |
− | + | *Jak významná je hledaná fráze pro dokument? | |
− | + | ; Vliv má: | |
− | **… | + | * kolikrát se fráze v dokumentu vyskytuje? |
+ | * je uvedena v názvu stránky? | ||
+ | * je uvedena v hlavičce v ''keywords''? (někdy se záměrně ignoruje) | ||
+ | * je uvedena v adrese? | ||
+ | * je na stránce fráze zvýrazněná? | ||
+ | * … | ||
+ | |||
== Význam dokumentu == | == Význam dokumentu == | ||
− | ; | + | Při množství stránek v dnešním Internetu je třeba hodnotit stránky ještě jinými způsoby než jen podle výskytu hledaných frází. |
+ | |||
+ | ; Page-rank | ||
* Algoritmus představený poprvé ve vyhledávači Google. | * Algoritmus představený poprvé ve vyhledávači Google. | ||
* Dnes implementují v nějaké formě všechny fulltextové vyhledávače. | * Dnes implementují v nějaké formě všechny fulltextové vyhledávače. | ||
+ | |||
; Jak významný je dokument? | ; Jak významný je dokument? | ||
− | *Kolik velkých stránek odkazuje na dokument | + | * Kolik velkých stránek (stránek s dobrý hodnocením) odkazuje na dokument? |
− | * | + | * Kolik odkazů na dokument máme? |
− | * | + | |
− | * | + | ; Hodnotí se také další vlivy: |
+ | * Je dokument validní? | ||
+ | * Není v dokumentu nápadně mnoho výskytů stejného slova? | ||
+ | * Je dokument dobře strukturován? | ||
+ | * … | ||
+ | |||
+ | |||
+ | == Historie vyhledávačů == | ||
+ | ; Google (1998) | ||
+ | *příklad fulltextového vyhledávače, | ||
+ | * vznikl na základě vědecké práce, | ||
+ | *autoři Sergey Brin a Larry Page, Stanfordská univerzita. | ||
− | |||
− | |||
== Tipy pro vyhledávání == | == Tipy pro vyhledávání == |
Verze z 20. 11. 2014, 17:14
Obsah |
Typy vyhledávačů
Katalogový vyhledávač
- firmy.seznam.cz
- Historicky starší varianta.
- Obvykle pevně dané kategorie, podle kterých se třídí.
- Odkazy zařazují obvykle lidé.
- Někdy se za umístění do katalogu platí.
- Příklad: Firmy.cz (součást Seznamu.cz)
Fulltextový vyhledávač
- „Katalog“ se vytváří automaticky podle četnosti výskytu slov ve stránce a dalších indicií.
- Příklady: Seznam.cz, Google.com.
Myšlenka: stránky, kde se často vyskytuje slovo „klavír“ se budou nejspíš týkat klavírů a měly by tedy být vráceny při dotazu „klavír“ na prvním místě. ;)
Metavyhledávač
- Agreguje výsledky více vyhledávačů.
Funkce fulltextového vyhledávače
Vytváření indexu (databáze)
- prochází stránky automaticky
- „robot“ pro stahování stránek,
- analýza stránek, hledání frází.
- o přečtených stránkách si udržuje statistiku významu frází pro danou stránku
- tabulka výskytů frází v dokumentech,
- umístění frází ve stránce/dokumentu,
- ...
- hodnotí význam stránek (page-rank)
- podle počtu odkazů na stránku a významu stránek, které se na tuto odkazují.
Zpracování dotazu
- Převod zadaných slov na fráze,
- vyřazení krátkých slov
- převod na synonyma
- lemmatizace (nalezení kořene slova)
- derivace
- odstranění skloňování, časování
- ...
- Podle indexu spočítá pro každý dokument „ohodnocení“ jeho relevance vzhledem k dotazu
- pro každou frázi procházíme seznam dokumentů, které ji obsahují,
- kontrolujeme, zda dokument vyhovuje zbytku dotazu,
- u vyhovujících dokumentů zhodnotíme „relevanci“.
- Promítné hodnocení významu stránek
- Vypíše stránky s nejlepším hodnocením
Moduly fulltextového vyhledávače
- URL server
- při čtení dokumentu získává URL adresy a dává je crawleru,
- Vyhledávací robot (crawler)
- stahování nových stránek, ukládá do repository (úložiště),
- idexovač: analýza obsahu stránek, získává:
- odkazy na dosud neznámé stránky,
- hledané fráze, jejich umístění atd.
- URL resolver
- převádí všechny tvary URL adres na ID dokumentů,
- generuje page-rank.
- Třídič: tvorba invertovaného seznamu.
- Hodnocení stránek
- výpočet page-rank
- Úložiště (repository)
- Databáze URL adres
- Archiv stránek
- Slovník
- hledání synonym atd.
- Index (databáze, invertovaný seznam)
- „tabulka“
- udává, jak je který termín významný pro danou stránku
Relevance fráze
- Jak významná je hledaná fráze pro dokument?
- Vliv má
- kolikrát se fráze v dokumentu vyskytuje?
- je uvedena v názvu stránky?
- je uvedena v hlavičce v keywords? (někdy se záměrně ignoruje)
- je uvedena v adrese?
- je na stránce fráze zvýrazněná?
- …
Význam dokumentu
Při množství stránek v dnešním Internetu je třeba hodnotit stránky ještě jinými způsoby než jen podle výskytu hledaných frází.
- Page-rank
- Algoritmus představený poprvé ve vyhledávači Google.
- Dnes implementují v nějaké formě všechny fulltextové vyhledávače.
- Jak významný je dokument?
- Kolik velkých stránek (stránek s dobrý hodnocením) odkazuje na dokument?
- Kolik odkazů na dokument máme?
- Hodnotí se také další vlivy
- Je dokument validní?
- Není v dokumentu nápadně mnoho výskytů stejného slova?
- Je dokument dobře strukturován?
- …
Historie vyhledávačů
- Google (1998)
- příklad fulltextového vyhledávače,
- vznikl na základě vědecké práce,
- autoři Sergey Brin a Larry Page, Stanfordská univerzita.
Tipy pro vyhledávání
- ne předložky a spojky, jednopísmenná slova
- jen podstatná slova
- nejdůležitější slova první
- Pokročilé vyhledávání
- Vyhledat nějaké slovo → ikona „ozubené kolečko“ → pokročilé vyhlevádání
site:
podsíť, ve které se vyhledává
VOŠ site:www.oauh.cz
filetype:
typ souboru- speciálně vyhledávání obrázků
- Uvozovky — hledání přesné fráze — slova se musí vyskytovat v tomto pořadí:
"obchodní škola"
- Konkrétní umístění fráze:
- v titulku stránky, v adrese, v textu stránky,…
- Omezení stáří dokumentu.
- Znaménko „minus“ znamená vyloučení.
- Hledáme stránky, obsahující slovo virus a neobsahující přitom slovo internet.
- Hledáme slovo VOŠ někde jinde než na stránkách OAUH.cz:
virus –internet VOŠ –site:www.oauh.cz