Поисковый робот
Поисковый робот (или паук) — бот одного из поисковиков, осуществляющий индексацию веб-страниц для их последующего представления в поисковом индексе.
[править] Принцип действия
Поисковый робот проходит по страницам сайта, обычно по внешним ссылкам с уже проиндексированных страниц, либо при добавлении ссылки в поисковик непосредственно вебмастером через специальную форму. Затем они переходят по всем внутренним ссылкам, считывают содержимое страниц сайта и добавляют их в базу данных поисковика, из которой они уже затем выдаются в ответ на запросы пользователей.
Существует недобросовестные «поисковые боты», которые перебирают известные адреса веб-скриптов, например PhpMyAdmin, с целью отыскать возможную уязвимость для взлома сайта. Еще одна разновидность — боты, которые проверяют доступность сайта, например при проверке при помощи сервиса pr-cy.ru или для определения аптайма сайта (HostTracker).
[править] Правила
- В строке идентификатора User-Agent поисковый робот должен содержать корректную информацию о поисковой системе, ссылку на страницу с описанием бота, версию. Также боты как правило используют IP-подсеть, в WHOIS которой указаны данные компании и хостнейм (например *.googlebot.com).[1]
- Перед началом индексации сайта робот должен считать файл robots.txt и придерживаться прописанных там правил. Некоторые боты могут игнорировать инструкции из robots.txt.
- Робот не должен индексировать ссылки и страницы, помеченные специальными тегами, такими как nofollow.
[править] Примечания
Поисковый робот относится к темам: |