Генератор парсеров BrowserExt

BrowserExt теперь использует Qt5


Обновили BrowserExt для использования с Qt5, также добавили несколько новых методов, исправили мелкие ошибки.

Опубликовано 2017-06-28

Исправлен важный баг в BrowserExt


В нашем php расширении BrowserExt для парсинга с поддержкой javascript был баг, который не давал работать в x64 Linux.

Мы наконец-то нашли и исправили этот баг. Теперь BrowserExt работает как в x32, так и в x64 Linux со всеми современными версиями php5 (5.3, 5.4, 5.5, 5.6).

Опубликовано 2016-06-01

Два тарифа для запуска скриптов на сервере


Ввели два тарифа для запуска скриптов на сервере. Один бесплатыный - "Demo", другой платный - "Run 1" - цена $20 в месяц.

Тариф "Demo" служит в основном для тестирования парсеров перед генерацией, на нем действует ограничение в 50 загружаемых страниц в день. На тарифе "Run 1" ограничений нет.

При оплате тарифа, к дате, до которой у вас продлен тариф, добавляется еще один месяц. Таким образом, если у вас остается оплаченным полмесяца, и вы снова оплатили, то тариф будет действовать для вас 1,5 месяца.

Опубликовано 2015-07-11

Убрали php free


Ввиду того, что никто не хочет пользоваться платными услугами, а платить за хостинг и развиваться надо, было принято решение убрать бесплатную генерацию php free. Посмотрим как это скажется на количестве пользователей и генераций.

Теперь все генерации платные. Выполнение скрипта на сервере на тарифе Demo бесплатно, действует ограничение в 50 страниц в день.

Цена парсера на заказ - $20-$50. У нас же вы получаете парсер за $2.

Опубликовано 2015-07-10

Добавили два видео примера


Добавили видео пример по созданию парсера фильмов imdb top 250.

Также добавили видео болеее сложного примера создания парсера интернет-магазина с пагинацией и сохранением картинок.

Видео под катом.

Опубликовано 2015-03-02

Экспериментально выключили использование tidy


Отсутствие на многих хостингах php расширения tidy приводило к невозможности запуска сгенерированных скриптов. Поэтому мы экспериментально перестали использовать tidy. Посмотрим как будет парситься невалидный html.

Также если на хостинге был установлен open_basedir или safe mode, то невозможно было использовать CURLOPT_FOLLOWLOCATION, т.е. curl не обрабатывал редиректы. Теперь эта ситуация исправлена, и редиректы обрабатываются вручную в скрипте.

Таким образом, теперь сгенерированные скрипты должны запускаться на любом хостинге.

Опубликовано 2015-01-04

Теперь можно запускать скрипты на нашем сервере


К возможности генерации парсера добавилась возможность запуска. Скрипты на ScraperLab Script теперь можно запускать на нашем сервере. Для этого появились две кнопки в списке парсеров: "Управление запуском" и "Результат выполнения". Запуск можно делать одиночный и по расписанию.

Действует ограничение на загрузку - 300 страниц в день. Пока данная функция предоставляется бесплатно.

Опубликовано 2013-12-06

BrowserExt - php расширение для парсинга веб-страниц


PHP расширение BrowserExt представляет собой управляемый браузер, основанный на QtWebKit и предназначенный для парсинга веб-страниц.

  • Поддерживает javascript и AJAX.
  • Для выборки элементов использует xpath
  • Позволяет заполнять формы, кликать на элементах документа
  • Позволяет получать атрибуты, свойства и другие параметры элемента документа, перебирать элементы в дереве
  • Позволяет загружать файлы по ссылке
  • Позволяет делать вертикальный скроллинг страницы
  • Поддерживает список прокси-серверов, может проверять прокси в несколько потоков

https://github.com/scraperlab/browserext

Опубликовано 2013-06-16