Интернет, компьютеры, софт и прочий Hi-Tech

Подписаться через RSS2Email.ru

Проверка robots.txt

На этой странице вы можете проверить, не запрещена ли индексация какой-то веб-страницы в файле robots.txt соответствующего сайта для указанного робота. Этот сервис является всего лишь демонстрацией работы PHP-скрипта для парсинга файлов robots.txt.

На данную демоверсию наложены определенные ограничения для защиты от массового автоматического использования. Вы можете снять эти ограничения, скачав скрипт парсера и использовав его на собственном сервере.


Парсим robots.txt

Зачем это нужно? Допустим, что вы разместили ссылку или статью на сайте Васи Пупкина и хотите знать, не запретил ли хитрый Вася эту страницу для Яндекса в robots.txt? Можно, конечно, глазами посмотреть, но если покупаете статьи/ссылки большими партиями, то смотреть замучаетесь и захотите этот процесс автоматизировать. Тут-то и пригодится мой скрипт. Вот как с ним работать:

Биржа долевых инвестиций SIMEX.

Публикация сокращена для удобства обсуждения.
Полная версия: Парсер для robots.txt

Метки материала: xbb, php, парсер, robots.txt, скрипт php, скрипт, скачать скрипт, поисковая оптимизация


25 комментариев

07.09.2012 22:38:02 #
Opera Гость RubtsovAV
Заметил опечатку:
PHP
public function isUrlOwnSite($url){
         if (false === ($arUrl = @parse_url($url))) {
             return false;
         }
         return (! empty($arUrl['scheme']) && ! empty($arUrl['host'])  && $this->_site == $arUrl['scheme'] . '://' . $arUrl['host'] . '/');   
}
06.11.2012 18:01:26 #
Opera Гость BS
Если верить яндексу http://help.yandex.ru/webma.../?id=996567
Яндекс
По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*', например:
То для парсера выражения должны быть идентичными.
Text
Disallow: /asdf*
Allow: /asdf
В то время, когда приоритет в данном случае отдаётся длинной строке.
Возможно я ошибаюсь.
06.11.2012 18:51:24 #
Mozilla Firefox dima
Поэкспериментировал с этим здесь: http://webmaster.yandex.ru/robots.xml
 
В общем, в описанном вами случае Яндекс отдает предпочтение выражению Allow. Если поменять строчки местами, все равно выбирает Allow.
20.02.2013 15:39:39 #
Opera Гость BS
dima
06.11.2012 18:51:24 #
 
dima
Поэкспериментировал с этим здесь: http://webmaster.yandex.ru/robots.xml
 
В общем, в описанном вами случае Яндекс отдает предпочтение выражению Allow. Если поменять строчки местами, все равно выбирает Allow
Да, так и должно быть. А у Вас выберет disallow потому что он длиннее. Суть в том, что нужно к концу каждого правила приписывать "*", если там нет знака "*" или "$". Иначе возникает ошибка.
Ещё одна ошибка связана с allow.
PHP
        if (false === ($arUrl = @parse_url($url))) {
            $er = 'Невозможно распарсить проверяемый URL "' . $url . '"';
            throw new Exception($er);
        }
        if (! empty($arUrl['scheme']) && ! empty($arUrl['host'])  && $this->_site != $arUrl['scheme'] . '://' . $arUrl['host'] . '/') {
            $er = 'Проверяемый URL "' . $url . '" принадлежит другому домену';
            throw new Exception($er);
        }
               
        $path = empty($arUrl['path']) ? '/' : $arUrl['path'];

После этой строки надо добавить что-то вроде
PHP
if (isset($arUrl['query']) && !empty($arUrl['query']))
                {
                        $path .= "?{$arUrl['query']}";
                }
Иначе отбрасывается всё после "?" в url, а часто надо убрать что-нибудь из поиска. Типа disallow: /yasearch?=
Чтобы результаты поиска не кешировать.
21.02.2013 04:58:54 #
Mozilla Firefox dima
Спасибо за сообщение. В ближайшее время постараюсь найти время и разобраться с указанными Вами нюансами.

Оставьте, пожалуйста, свой комментарий к публикации

Представиться как     Антибот:
   

Просьба не постить мусор. Если вы хотите потестить xBB, воспользуйтесь кнопкой предварительного просмотра на панели инструментов xBBEditor-а.


© 2007-2017, Дмитрий Скоробогатов.
Разрешается воспроизводить, распространять и/или изменять материалы сайта
в соответствии с условиями GNU Free Documentation License,
версии 1.2 или любой более поздней версии, опубликованной FSF,
если только иное не указано в самих материалах.