Генератор парсеров BrowserExt

PHP парсер

Простой парсер на php. В зависимости от команд, использованных в скрипте, сгенерированный парсер имеет следующие возможности:

  • поддержка как однопоточной, так и многопоточной загрузки страниц, возможность выставить задержку при загрузке
  • поддержка cookies, возможность веб-авторизации на сайте
  • поддержка списка прокси серверов и ведение лога
  • возможность извлекать данные как при помощи xpath, так и при помощи регулярных выражений
  • возможность сохранения изображений и файлов
  • возможность заполнять формы и отправлять данные на сервер
  • возможность экспортировать собранные данные в CSV, XML, SQL или любой другой текстовый формат, также поддерживается экспорт в Excel
  • скрипт поддерживает команды фильтрации данных перед экспортом
  • возможность работать с mysql базой данных.

Системные требования: php5, базовые расширения curl и tidy.

Сгенерированная программа представляет из себя один файл с именем scraper.php. Открыв этот файл в текстовом редакторе, после комментариев с описанием парсера и лицензии можно найти параметры, которые можно менять.

Если же в программе используется экспорт в Excel, то она поставляется в виде zip файла, в котором кроме scraper.php присутствуют необходимые библиотеки. Параметры остаются теже.

Описание параметров дано в таблице:

Параметр Значение по-умолчанию Описание
$storefile_folder 'files'

Задает каталог, в который будут сохраняться картинки и файлы, сохраняемые функцией storefile.

По-умолчанию парсер каждый раз записывает картинки в один каталог. Чтобы парсер при каждом запуске создавал новый каталог можно указать:

$storefile_folder = date('Y-m-d H-i-s');

Тогда именем каталога будет выступать текущее время.

$proxy_filename 'proxy.txt' Задает файл, в котором располагается список прокси-серверов.
$log_filename 'scraper.log' Задает файл, в который будет писаться лог работы парсера.
$use_cookies true Определяет, будет ли curl обрабатывать и использовать cookies. Cookies будут сохраняться и браться из файла cookie.txt, который будет создаваться парсером.
$console_out true Определяет, будет ли производится вывод на консоль при работе парсера. Если false, то вывод будет только в лог файл.
$filesystem_encoding 'UTF-8' Определяет кодировку файловой системы. Необходимо, чтобы парсер правильно создавал имена файлов с национальными буквами. Если парсер запускается под Windows, необходимо установить этот параметр в 'windows-1251'.
$loadpage_delay 0 Задает задержку, которая используется при однопоточной загрузке страниц и файлов.
$number_of_connections 5 Задает количество одновременных соединений при многопоточной (параллельной) загрузке страниц и файлов.