Co to jest robot indeksujący?
Robot indeksujący lub inaczej web crawler jest to internetowy program zbierających informacje o strukturach i stronach umieszczonych w sieci World Wide Web w celu zindeksowania ich. Roboty internetowe najczęściej służą do dodawania treści do wyszukiwarek internetowych, sprawdzania kodów strony WWW, zbierania informacji o stronach w celu odpowiedniego ich zaindeksowania, monitorowania zmian wprowadzanych na nich, a niekiedy także tworzą mirrory stron, czyli ich kopie. Obecnie głównym wyznacznikiem pozycji strony WWW w wynikach wyszukiwania jest właśnie wskaźnik ruchu generowany przez roboty internetowe.
Jednym z najpopularniejszych i najbardziej rozwiniętych robotów indeksujących jest Googlebot używany przez Google, który indeksuje strony poprzez przechodzenie za pomocą odnośników pomiędzy nimi. Webmaster może udostępnić informacje o swojej stronie internetowej przy użyciu pliku robots.txt. Metody działania Googlebota oparte są na dwóch technikach – na deep crawl oraz fresh crawl. Pierwsza z nich polega na przechodzeniu na każdy odnośnik zawarty w oglądanych przez siebie stronach WWW i dodawaniu wszystkich ich do indeksu. Obecnie Googlebot wykonuje ten proces co około 30 dni. Fresh crawl polega natomiast na odwiedzaniu stron, które są często aktualizowane, w celu zaindeksowania i odświeżenia zawartości stron WWW. Googlebot pomimo swojego technicznego zaawansowania niestety obciąża transfer na stronach, co może powodować wyczerpanie limitu transferu i ich zawieszenie. Dlatego też Google umożliwia dopasowanie odwiedzić Googlebota na stronach.
Kategorie
Najnowsze komentarze
- Mike - Ruch w sieci przenosi się do mobile
- kasztan i bartek - Co to jest HTML?
- Marian - Co to jest HTML?
- Ciekawski - Co to jest HTML?
- beka - Co to jest HTML?
szukam wyszukiwarki webowej