Страницы

Поиск по вопросам

среда, 15 апреля 2020 г.

Парсинг выдачи яндекса

#php

                    
У меня имеется некоторое количество сайтов, за которыми постоянно нужно следить.
(Кол-во проиндексированных страниц и ТИЦ).
Пытался написать с помощью CURL - Яндекс говорит, что запросы автоматические, естественно.
Какие у вас есть идеи реализации скрипта?
Заранее благодарен.    


Ответы

Ответ 1



Есть готовое решение, но показать смогу только в понедельник. Есть алгоритм: Сокетом(ну или cURL-ом) стучимся в Яндекс - он дает 301 на капчу Получаем капчу, показываем юзверю Юзверь заполняет - данные капчи уходят в Яндекс (с ай-пи проверяющего скрипта) Тут надо поймать куки, передаваемые Яшей и записать их (в файл либо в БД) Обращаемся к поиску с записанными куки парсим ответ Если яндекс снова дал капчу - повторить. ... PROFIT! Еще можно быть честным ботом и парсить xml выдачу. Но она не хило отличается от реальной. Это про позиции и количество страниц в индексе. Про ТИЦ не вспомню сейчас. Модифицировал существующий код. UPD: Совсем забыл. Вот метод для проверки ТиЦ: public function tic($url) { $content = file_get_contents('http://bar-navig.yandex.ru/u?ver=2&show=32&url=http://'. $url); preg_match('##', $content, $matches ); $parse = intval($matches[1]); if (isset($parse)){ $this->response['html'] = $parse; } } Вырвал с мясом. Если необходимо - поясню, но тут вроде бы и так все понятно. Вообще могу подогнать исходники класса-проверялки. Проверяет: Яндекс ТИЦ: Google PR: Страницы в индексе Яндекс Страницы в индексе Google Страницы в индексе Yahoo Ссылки на сайт в Яндекс Ссылки на сайт в Яндекс.Блоги Ссылки на сайт в Google Ссылки на сайт в Yahoo Яндекс каталог mail.ru каталог dmoz каталог Rambler каталог Aport каталог Рамблер счетчик на сайте Mail.ru счетчик на сайте spylog счетчик на сайте hotlog счетчик на сайте liveinternet счетчик на сайте Яндекс Метрика счетчик на сайте google analytics счетчик на сайте Но индексы Яндекса - из XML выдачи.

Комментариев нет:

Отправить комментарий