Cкрипт Human Emulator парсер Яндекс Маркета

Одной из актуальных задач на сегодняшний день является парсинг товаров с Яндекс Маркета. Мы решили не обходить эту задачу стороной и написать скрипт, который собирает заданные товары и всю информацию по ним и сохраняет её в базу данных MySQL.

Перед тем как написать скрипт мы с официального сайта скачали и установили последнюю сборку Mysql со всеми причиндалами и раскоментировали библиотеку mysql в php.ini, для того что бы можно было использовать функции работы с базами данных mysql в php.

Так как данные на сайте хранятся в utf-8 формате мы использовали для разработки скрипта Unicode версию программы Human Emulаtor. Эта версия лежит рядом с exe-шником обычной версии и называется XWeb Human Emulator MT UE.exe. Входные данные для скрипта тоже используются в unicode формате. На входе скрипт принимает файл с ключевыми словами, по которым он ищет нужные вам товары в следующем формате:
ноутбук
монитор
клавиатура
мышь

В результате работы скрипта создаётся база данных с таблицей товаров markets с
колонками Ключевое слово, Наименование товара, Средняя цена, Диапазон цен, Html код картинки, Html код кратких характеристик, Html код всех характеристик.
Можно все html результаты получать в виде текста. Для этого при разборе страниц товара вместо inner html надо использовать функции которые получают inner text.
В функции get_market_info($market_key) заменить $element->get_inner_html_by_attribute на $element->get_inner_text_by_attribute.

Результат работы скрипта в MySQL Workbench :

товары собранные с Яндекс Маркета в базе данных MySQL

товары собранные с Яндекс Маркета в базе данных MySQL

Настройки скрипта:

Сам скрипт выглядит следующим образом:

Скрипт написан 11.09.2012 в Human Emulator 4.4.19 Advanced.
На момент публикации статьи 11.09.2012 скрипт был рабочий.

скачать скрипт