Vyhledávač
Z MiS
(Rozdíly mezi verzemi)
m (Přidána kategorie Category:Stránky s obrázky) |
m (→Tipy pro vyhledávání: Oprava vzhledu) |
||
Řádka 103: | Řádka 103: | ||
*<code>filetype:</code> typ souboru | *<code>filetype:</code> typ souboru | ||
**speciálně vyhledávání obrázků | **speciálně vyhledávání obrázků | ||
− | * | + | * Uvozovky — hledání přesné fráze — slova se musí vyskytovat v tomto pořadí: |
"obchodní škola" | "obchodní škola" | ||
− | *umístění fráze: | + | * Konkrétní umístění fráze: |
− | **v titulku, v adrese, v textu stránky,… | + | ** v titulku stránky, v adrese, v textu stránky,… |
− | * | + | * Omezení stáří dokumentu. |
− | *Znaménko „minus“ znamená vyloučení. | + | * Znaménko „minus“ znamená vyloučení. |
+ | *# Hledáme stránky, obsahující slovo ''virus'' a neobsahující přitom slovo ''internet''. | ||
+ | *# Hledáme slovo ''VOŠ'' někde jinde než na stránkách ''OAUH.cz'': | ||
virus –internet | virus –internet | ||
− | + | VOŠ –site:www.oauh.cz | |
− | VOŠ –site:www.oauh.cz | + | |
− | + |
Verze z 20. 11. 2014, 16:59
Obsah |
Historie vyhledávačů
- Google (1998)
- příklad fulltextového vyhledávače,
- vznikl na základě vědecké práce,
- autoři Sergey Brin a Larry Page, Stanfordská univerzita.
Katalogový vyhledávač
- firmy.seznam.cz
- Historicky starší varianta.
- Obvykle pevně dané kategorie, podle kterých se třídí.
- Odkazy zařazují obvykle lidé.
- Někdy se za umístění do katalogu platí.
- Příklad: Firmy.cz (součást Seznamu.cz)
Fulltextový vyhledávač
- „Katalog“ se vytváří automaticky podle četnosti výskytu slov ve stránce a dalších indicií.
- Příklady: Seznam.cz, Google.com.
Myšlenka: stránky, kde se často vyskytuje slovo „klavír“ se budou nejspíš týkat klavírů a měly by tedy být vráceny při dotazu „klavír“ na prvním místě. ;)
- Postup vytváření indexu (databáze)
- prochází stránky automaticky
- „robot“ pro stahování stránek,
- analýza stránek, hledání frází.
- o přečtených stránkách si udržuje statistiku významu frází pro danou stránku
- tabulka výskytů frází v dokumentech,
- umístění frází ve stránce/dokumentu,
- ...
- hodnotí význam stránek (page-rank)
- podle počtu odkazů na stránku a významu stránek, které se na tuto odkazují.
- Zpracování dotazu
- Převod zadaných slov na fráze,
- vyřazení krátkých slov
- převod na synonyma
- lemmatizace (nalezení kořene slova)
- derivace
- odstranění skloňování, časování
- ...
- Podle indexu spočítá pro každý dokument „ohodnocení“ jeho relevance vzhledem k dotazu
- pro každou frázi procházíme seznam dokumentů, které ji obsahují,
- kontrolujeme, zda dokument vyhovuje zbytku dotazu,
- u vyhovujících dokumentů zhodnotíme „relevanci“.
- Promítné hodnocení významu stránek
- Vypíše stránky s nejlepším hodnocením
- Moduly fulltextového vyhledávače
- URL server
- při čtení dokumentu získává URL adresy a dává je crawleru,
- Vyhledávací robot (crawler)
- stahování nových stránek, ukládá do repository (úložiště),
- idexovač: analýza obsahu stránek, získává:
- odkazy na dosud neznámé stránky,
- hledané fráze, jejich umístění atd.
- URL resolver
- převádí všechny tvary URL adres na ID dokumentů,
- generuje page-rank.
- Třídič: tvorba invertovaného seznamu.
- Hodnocení stránek
- výpočet page-rank
- Úložiště (repository)
- Databáze URL adres
- Archiv stránek
- Slovník
- hledání synonym atd.
- Index (databáze, invertovaný seznam)
- „tabulka“
- udává, jak je který termín významný pro danou stránku
Relevance
- Jak významná je hledaná fráze pro dokument:
- kolikrát se vyskytuje,
- je v názvu?
- …
Význam dokumentu
- page-rank
- Algoritmus představený poprvé ve vyhledávači Google.
- Dnes implementují v nějaké formě všechny fulltextové vyhledávače.
- Jak významný je dokument?
- Kolik velkých stránek odkazuje na dokument,
- kolik odkazů na dokument máme,
- jak významné dokumenty na tento dokument odkazují,
- …
Metavyhledávače
- Agregují výsledky více vyhledávačů
Tipy pro vyhledávání
- ne předložky a spojky, jednopísmenná slova
- jen podstatná slova
- nejdůležitější slova první
- Pokročilé vyhledávání
- Vyhledat nějaké slovo → ikona „ozubené kolečko“ → pokročilé vyhlevádání
site:
podsíť, ve které se vyhledává
VOŠ site:www.oauh.cz
filetype:
typ souboru- speciálně vyhledávání obrázků
- Uvozovky — hledání přesné fráze — slova se musí vyskytovat v tomto pořadí:
"obchodní škola"
- Konkrétní umístění fráze:
- v titulku stránky, v adrese, v textu stránky,…
- Omezení stáří dokumentu.
- Znaménko „minus“ znamená vyloučení.
- Hledáme stránky, obsahující slovo virus a neobsahující přitom slovo internet.
- Hledáme slovo VOŠ někde jinde než na stránkách OAUH.cz:
virus –internet VOŠ –site:www.oauh.cz