Поисковый робот

Материал из Викиреальностя
Перейти к: навигация, поиск

Поисковый робот (или паук) — бот одного из поисковиков, осуществляющий индексацию веб-страниц для их последующего представления в поисковом индексе.

[править] Принцип действия

Поисковый робот проходит по страницам сайта, обычно по внешним ссылкам с уже проиндексированных страниц, либо при добавлении ссылки в поисковик непосредственно вебмастером через специальную форму. Затем они переходят по всем внутренним ссылкам, считывают содержимое страниц сайта и добавляют их в базу данных поисковика, из которой они уже затем выдаются в ответ на запросы пользователей.

Существует недобросовестные «поисковые боты», которые перебирают известные адреса веб-скриптов, например PhpMyAdmin, с целью отыскать возможную уязвимость для взлома сайта. Еще одна разновидность — боты, которые проверяют доступность сайта, например при проверке при помощи сервиса pr-cy.ru или для определения аптайма сайта (HostTracker).

[править] Правила

  • В строке идентификатора User-Agent поисковый робот должен содержать корректную информацию о поисковой системе, ссылку на страницу с описанием бота, версию. Также боты как правило используют IP-подсеть, в WHOIS которой указаны данные компании и хостнейм (например *.googlebot.com).[1]
  • Перед началом индексации сайта робот должен считать файл robots.txt и придерживаться прописанных там правил. Некоторые боты могут игнорировать инструкции из robots.txt.
  • Робот не должен индексировать ссылки и страницы, помеченные специальными тегами, такими как nofollow.

[править] Примечания

Поисковый робот относится к темам: