Генератор парсеров BrowserExt

Обязательно прочитайте

Сгенерированные программы не могут собирать данные с AJAX-сайтов, т.е. те данные, которые динамически подгружаются через AJAX.

Данный сайт не полностью работает в Internet Explorer (9 версия и ниже), в частности не работает "встроенный браузер". Это происходит из-за невозможности выполнения xpath запросов. В Internet Explorer можно использовать только редактор скриптов. Рекомендуем вам использовать другой браузер, например Firefox, Chrome или Opera.

Некоторые сайты не позволяют загружать себя во фрейм. Такие сайты не могут быть загружены во "встроенный браузер". Например, yandex.ru и его подсайты.

Если пока нет своего хостинга для парсера, то можно запустить парсер на выполнение у нас на сервере, там используется та же библиотека, что и в сгенерированном парсере, поэтому если данные собираются, то и в сгенерированном парсере они будут собираться.

Пока запуск у нас на сервере предоставляется бесплатно, но существует ограничение в 300 страниц в сутки, т.е. если парсер у вас отработал и загрузил более 300 страниц, то повторно его запустить вы сможете только на следующий день. В дальнейшем запуск на сервере тоже будет платным.

Ввиду того, что сейчас парсеры не используют php расширение tidy, то сайты с невалидным html могут не парситься. Есть возможность включить tidy в сгенерированном парсере, для этого найдите следующую строку:

//$page = tidy_repair_string($page, $tidy_config, 'UTF8');

и удалите // впереди строки, т.е. раскомментируйте эту строку. В этом случае tidy будет использоваться. Но в этом случае у вас на хостинге должен быть установлен tidy.

Пример хостинга с tidy - hosting.nic.ru, там можно самому настраивать, какие php расширения использовать, в том числе и tidy.