Googlebot
| Vyvojar | |
|---|---|
| Typ softwaru | web crawler |
| Web | www |
| Nektera data mohou pochazet z datove polozky. | |
Googlebot (nekdy tez oznacovany jako web crawler nebo spider) je specialni vyhledavaci software spolecnosti Google, ktery se vyuziva k indexovani webovych stranek. Tento robot prochazi webove stranky, precte si jejich obsah a nasledne jej prida do sveho indexu, tj. do sve databaze. Diky tomuto procesu je nasledne mozne stranku zobrazit v internetovem Google vyhledavaci.[1][2][3]
Jak Googlebot funguje
[editovat | editovat zdroj]Googlebot je zcela automaticky program, ktery funguje bez jakehokoli vnejsiho rizeni. Ke sve cinnosti vyuziva mapy webu (tzv. sitemaps) a odkazy objevene behem predchoziho vyhledavani. Pokazde, kdyz Googlebot narazi na novy odkaz, tak si ho ulozi, aby se na nej mohl pozdeji podivat a pripadne jej i pridat do sveho indexu. Program si tez zaznamenava zmenene nebo poskozene odkazy a aktualizuje podle toho svou databazi.[4][5] Googlebot si sam urcuje, jak casto bude webove stranky navstevovat. Tuto cetnost urcuje podle tzv. rozpoctu vyhledavani (neboli crawl budget), ktery sam prideluje kazde strance na zaklade odhadu, jak casto se dana webova stranka meni.[6]
Typy
[editovat | editovat zdroj]Google vyuziva ke sberu dat velkou radu IP adres, aby prohledal co nejvice obsahu v co nejkratsim case. Existuje nekolik ruznych typu programu, kazdy s jasne definovanym ucelem. Existuje napriklad AdsBot - kontrola relevantnosti a kvality placenych reklam na webu. Dale existuje tzv. Images Googlebot (prochazi obrazky na webu), News Googlebot atd.[7]
Mezi nejvyznamnejsi typy patri:
Googlebot desktop
(Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)[7]
Googlebot mobile
(Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z, Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)[7]
Moznosti pristupu Googlebota ke strance
[editovat | editovat zdroj]Googlebot muze mit bud plny pristup ke strance, nebo je mozne jeho cteni stranky korigovat. Existuje mnoho pripadu, kdy spravce webu nechce, aby mel Googlebot pristup k jeho strance. Muze se jednat napriklad o stranku administrace, nakupni kosiky nebo osobni ucty uzivatelu. V takovemto pripade je vhodne pouzit soubor robots.txt, diky kteremu je mozne zakazat Googlebotovi pristup ke strance nebo jednotlivym castem webu. Soubor robots.txt je prvni veci, kterou Googlebot kontroluje pri vstupu na stranku a nasledne se vzdy ridi jeho prikazy.[8][9]
Optimalizace stranky pro Googlebota
[editovat | editovat zdroj]Pokud spravce webu chce, aby byla jeho stranka spravne indexovana, je vhodne ji prizpusobit tak, aby se Googlebotovi prochazela co mozna nejrychleji.[6][3]
Snadno viditelny obsah
[editovat | editovat zdroj]Je nutne, aby byl obsah stranek snadno viditelny v textovem prohlizeci a aby nebyl pro Googlebota prilis komplikovany. Googlebot muze mit potize s indexovanim stranek vyuzivajicich technologii Ajax[10] a programovaci jazyk JavaScript.[11][3]
Soubory CSS
[editovat | editovat zdroj]Soubory CSS take velmi usnadnuji Googlebotovu praci. CSS, neboli Cascading Style Sheets, jsou sobory, ktere popisuji, jak se zobrazuji jednotlive prvky HTML (Hypertext Markup Language) na obrazovce. Krome cteni textu si Googlebot stahuje prave i tyto CSS soubory, aby lepe porozumel obsahu webu.
Kanonizace duplicitnich stranek
[editovat | editovat zdroj]Webove stranky casto pouzivaji ruzne URL (Uniform Resource Locator), na kterych je ovsem stejny obsah. Muze se jednat o parametry uvedene v URL - napriklad produkt na e-shopu muze mit URL jen s ID dane veci, ale zaroven i s nazvem, ktery je lepsi pro SEO (search engine optimization). V obou pripadech je vsak obsah stejny, a tak se zde pouziva kanonizace. Behem ni se jedna stranka oznaci jako ta, ktera se ma indexovat a dalsi se pak na ni pouze odkazuji.[12]
Mapa webu (sitemap)
[editovat | editovat zdroj]Soubor sitemap slouzi Googlebotovi jako jakasi mapa, ktera mu rika, jak se ma na strance pohybovat. V souboru sitemap se nachazi seznam vsech URL adres webu, ktery se majitel webu rozhodl pouzit a take to, jak na sebe jednotlive URL navazuji. Diky temto souborum mohou byt stranky prochazeny rychleji a jsou tedy casteji indexovany.[13]
Reference
[editovat | editovat zdroj]- | What Is Googlebot | Google Search Central. Google Developers [online]. [cit. 2021-12-02]. Dostupne online. (anglicky)
- | GOOGLE SEARCH CENTRAL. Googlebot: SEO Mythbusting. In: Youtube [online]. 02.12.2021. [vid. 2019-05-22]. Dostupne online.
- 1 2 3 WHOLEWHALE. How to Optimize for Googlebot. In: Youtube [online]. 02.12.2021. [vid. 2018-07-30]. Dostupne online.
- | BAI, Quan; XIONG, Gang; ZHAO, Yong. Analysis and Detection of Bogus Behavior in Web Crawler Measurement. Procedia Computer Science. 2014-01-01, roc. 31, cis. 2nd International Conference on Information Technology and Quantitative Management, ITQM 2014, s. 1084-1091. Dostupne online [cit. 2021-12-02]. ISSN 1877-0509. doi:10.1016/j.procs.2014.05.363. (anglicky)
- | Web Crawler For Mining Web Data. 1library.net [online]. [cit. 2021-12-02]. Dostupne online. (anglicky)
- 1 2 What Crawl Budget Means for Googlebot | Google Search Central Blog. Google Developers [online]. [cit. 2021-12-02]. Dostupne online. (anglicky)
- 1 2 3 Google Crawler (User Agent) Overview | Google Search Central. Google Developers [online]. [cit. 2021-12-02]. Dostupne online. (anglicky)
- | Robots.txt Introduction and Guide | Google Search Central. Google Developers [online]. [cit. 2021-12-02]. Dostupne online. (anglicky)
- | KOLAY, Santanu; D'ALBERTO, Paolo; DASDAN, Ali. A larger scale study of robots.txt. In: Proceedings of the 17th international conference on World Wide Web. New York, NY, USA: Association for Computing Machinery, 2008-04-21. Dostupne online. ISBN 978-1-60558-085-2. doi:10.1145/1367497.1367711. S. 1171-1172.
- | KHALID, Shah; KHUSRO, Shah; ULLAH, Irfan. CRAWLING AJAX-BASED WEB APPLICATIONS: EVOLUTION AND STATE-OF-THE-ART. Malaysian Journal of Computer Science. 2018-01-17, roc. 31, cis. 1, s. 35-47. Dostupne online [cit. 2021-12-02]. ISSN 0127-9084. doi:10.22452/mjcs.vol31no1.3. (anglicky)
- | Splitt, Martin. "How Google Search indexes JavaScript sites - JavaScript SEO". In: Youtube [online]. 02.12.2021. [2019-02-28]. Dostupne online.
- | Consolidate Duplicate URLs with Canonicals | Google Search Central. Google Developers [online]. [cit. 2021-12-02]. Dostupne online. (anglicky)
- | What Is a Sitemap | Google Search Central. Google Developers [online]. [cit. 2021-12-02]. Dostupne online. (anglicky)