Интернет, компьютеры, софт и прочий Hi-Tech

Подписаться через RSS2Email.ru

Проверка robots.txt

На этой странице вы можете проверить, не запрещена ли индексация какой-то веб-страницы в файле robots.txt соответствующего сайта для указанного робота. Этот сервис является всего лишь демонстрацией работы PHP-скрипта для парсинга файлов robots.txt.

На данную демоверсию наложены определенные ограничения для защиты от массового автоматического использования. Вы можете снять эти ограничения, скачав скрипт парсера и использовав его на собственном сервере.


Парсим robots.txt

Зачем это нужно? Допустим, что вы разместили ссылку или статью на сайте Васи Пупкина и хотите знать, не запретил ли хитрый Вася эту страницу для Яндекса в robots.txt? Можно, конечно, глазами посмотреть, но если покупаете статьи/ссылки большими партиями, то смотреть замучаетесь и захотите этот процесс автоматизировать. Тут-то и пригодится мой скрипт. Вот как с ним работать:

Биржа долевых инвестиций SIMEX.

Публикация сокращена для удобства обсуждения.
Полная версия: Парсер для robots.txt

Метки материала: xbb, php, парсер, robots.txt, скрипт php, скрипт, скачать скрипт, поисковая оптимизация


25 комментариев

28.01.2012 18:30:37 #
Mozilla Firefox Гость Андрей
Очень интересно, спасибо за статью!
28.01.2012 18:50:21 #
Mozilla Firefox dima
Пожалуйста Well
09.05.2012 09:15:42 #
Mozilla Firefox Гость Vetalli
Спасибо прекрасно все обяснили проверил свой сайт
13.06.2012 12:00:56 #
Google Chrome Гость zerg
Уважаемый автор, синтаксис robots.txt изменился и здается мне что проверка теперь работает не всегда правильно.
Например вот такой robots.txt не запрещает сайт к индексации, а наоборот:
 
User-Agent: *
Disallow:

 
А ваш скрипт считает что это запрет всего сайта к индексации. Просьба пофиксить.
Заранее спасибо.
 
13.06.2012 14:41:59 #
Mozilla Firefox dima
Спасибо за сообщение. Да, теперь, согласно справке Яндекса
 
Text
User-agent: Yandex
Disallow: # то же, что и Allow: /
 
User-agent: Yandex
Allow: # то же, что и Disallow: /

Внес соответствующие изменения в скрипт. Должно работать корректно. Другие изменения:
  • Сменил лицензию на скрипт. Вместо GNU GPL установил public domain.
  • Установил ограничение timeout = 10 секунд для HTTP-запроса файла robots.txt
  • Сменил номер версии на 0.1.
Скачивайте: http://xbb.uz/download.bb
05.09.2012 06:22:57 #
Opera Гость RubtsovAV
Изучил ваш код и честно говоря порадовал. Очень грамотно написан - не часто встретишь в наше время ;) - легко читаем и довольно хорошо оптимизирован. Но есть пара нюансов с самим алгоритмом allow:
1) Не учитывается служебный символ *;
2) Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то выбирается последняя в порядке появления в сортированном списке. Таким образом порядок следования директив в файле robots.txt не влияет на использование их роботом. Примеры:
# Исходный robots.txt:
User-agent: Yandex
Allow: /catalog
Disallow: /
# Сортированный robots.txt:
User-agent: Yandex
Disallow: /
Allow: /catalog
# разрешает скачивать только страницы,
# начинающиеся с '/catalog'
# Исходный robots.txt:
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog
# Сортированный robots.txt:
User-agent: Yandex
Allow: /
Disallow: /catalog
Allow: /catalog/auto
# запрещает скачивать страницы, начинающиеся с '/catalog',
# но разрешает скачивать страницы, начинающиеся с '/catalog/auto'.
 
Важно. В случае возникновения конфликта между двумя директивами с префиксами одинаковой длины приоритет отдается директиве Allow.
05.09.2012 06:24:23 #
Opera Гость RubtsovAV
Текст во втором пунтк взят из http://help.yandex.ru/webma.../?id=996567
05.09.2012 14:45:07 #
Opera Гость RubtsovAV
Изменил скрипт с учётом обоих пунктов, а также:
- добавил ограничение на загружаемый файл;
- в конструктор передаём строку в виде полного пути к robots.txt (полный урл или файл на диске).
 
p.s. готов поделиться, на какой ящик прислать?
05.09.2012 14:47:09 #
Opera Гость RubtsovAV
* добавил ограничение на загружаемый файл (не более 32Кб)
05.09.2012 15:11:35 #
Mozilla Firefox dima
p.s. готов поделиться, на какой ящик прислать?

Шлите на info(at)xbb.uz
Заранее спасибо Well

Оставьте, пожалуйста, свой комментарий к публикации

Представиться как     Антибот:
   

Просьба не постить мусор. Если вы хотите потестить xBB, воспользуйтесь кнопкой предварительного просмотра на панели инструментов xBBEditor-а.


© 2007-2017, Дмитрий Скоробогатов.
Разрешается воспроизводить, распространять и/или изменять материалы сайта
в соответствии с условиями GNU Free Documentation License,
версии 1.2 или любой более поздней версии, опубликованной FSF,
если только иное не указано в самих материалах.