Поисковый краулер, паук или робот

Определение

Поисковый робот или по другому - веб-паук  это программа поисковой системы для сбора информации в интернете посредством загрузки интернет сайтов, по протоколу http и сохранением данных, в собственную базу поисковой системы, называемую индексом. 

robots.txt

Прежде чем сканировать весь сайт, поисковый робот в первую очередь загружает файл robots.txt в котором описаны правила, которым необходимо следовать для правильного сканирования - индексации сайта.

Пример правильного файла robots.txt для сайта на системе Opencart:

User-Agent: *

Disallow: /admin
Disallow: /cache
Disallow: /download
Disallow: /system
Disallow: /vqmod
Disallow: /my-account
Disallow: /order-history
Disallow: /change-password
Disallow: /search?filter_name=
Disallow: /search
Disallow: /search?
Disallow: /search?tag=
Disallow: /checkout
Disallow: /cart
Disallow: /vouchers
Disallow: /request-return
Disallow: /login
Disallow: /index.php?route=account
Disallow: /index.php?route=account/account
Disallow: /index.php?route=product/search
Disallow: /index.php?route=account/login
Disallow: /*?sort=
Disallow: /*?sort
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*?order
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?manufacturer
Disallow: /*?keyword

Sitemap: https://4frag.ru/index.php?route=feed/google_sitemap
Host: https://4frag.ru

Основные параметры

User-Agent: *

«User-Agent» определяет для робота каких систем, необходимо использовать следующие ниже правила. Параметр «User-Agent: *» задает использование нижеследующих правил для всех без исключения роботов.

User-Agent: Yandex

Другой параметр «User-Agent: Yandex» определяет использование, ниже следующих, правил только для робота Яндекса, «User-Agent: Google» соответственно для Google.

Disallow: /

«Disallow: /» запрещает индексацию всего сайта, без исключений.  «Disallow: /catalog» запрещает скачивать страницы, у которых url начинается с «/catalog».

Примеры таких ссылок:

Sitemap: https://4frag.ru/index.php?route=feed/google_sitemap

Директива «sitemap» позволяет указать ссылку на заранее сгенерированную xml карту сайта.

Карта sitemap.xml помогает выставить приоритеты в индексации сайта для роботов, так как каждый поисковый робот имеет ограниченный ресурс и на каждый сайт отводится определенное количество времени на индексацию.