Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Начало парсинга



Для того чтобы начать парсинг, вам нужно выполнить несколько пунктов и изучить некоторые функции программы Webparser.

Настроим программу по вашим требованиям, перейдя во вкладку настройки:

1. Задержка поисковика – задержка между отправкой запросов к поисковым системам, чем больше тем, меньше вероятности получить бан и потратить больше капчи;

2. Проверять страниц – Количество страниц для парсинга в поисковых системах макс. 100;

3. Путь к файлу с базой сайтов – Здесь вы указываете имя файла, который находиться в корне папки Webparser, туда будут сохраняться все ссылки после анализа программой. (Доступно для режима работы с файлами);

4. Если вы отлучаетесь на долгое время, поставьте галочку не останавливать парсинг если сайты не найдены;

5. Использовать скины – советуем отключать при большом парсинге, для меньшей нагрузки программы;

6. Ключ антигейт или капчабот вставлять обязательно если не хотите вводить капчу в ручную.

Настроили программу под свои требования теперь мы можем изучить вкладки поисковые фразы и доп. фразы.

Поисковые фразы: это фразы, которые будут отсылаться поисковику для сбора сайтов.

Доп. фразы, помогают точнее отбирать те сайты которые вам нужны в поисковике фраза + доп. фраза будет выглядеть так:

Машина(ваша поисковая фраза) inurl:index.php (ваша доп. фраза)

Генератор поисковых фраз: помогает сгенерировать поисковые фразы за определенные даты, тем самым собрать намного больше сайтов по определенным запросам. Для того чтобы воспользоваться данной опцией, вам всего лишь нужно указать поисковую фразу и период за который вы хотите просмотреть выдачу поисковика.

Само по себе устройство поисковой системы таково, что глубже 1000й ссылки невозможно собрать выдачу яндекса, какая бы это не была программа. Есть только возможность крутить поисковую фразу с другими словами и параметрами, для получения большего количества ссылок по интересующей вас теме, примерно так работает BabloPars, крутит фразу по разным регионам от разных IP и за все даты, тоже самое умеет делать и WebParser, все что нужно задать доп. фразы и сгенерировать запросы по дате.

Итак, в WebParser есть генератор поисковых фраз. Вы задаете поисковую фразу, шаблон и промежуток времени (дат) за который собрать выдачу, а он вам выдает поисковые фразы. Генератор поддерживает любой формат даты.

Примеры шаблонов можно увидеть по кнопке Макро шаблоны справа вверху на форме Генератора фраз.


Например

GOOGLE (Use Julian Date):
inurl:{QUERY} daterange:{START_DATE}-{END_DATE}

YANDEX:
inurl:{QUERY} date:{START_DATE}..{END_DATE}


Получаем для гугла по фразе addnews.html

inurl:addnews.html daterange:2453737-2453747
inurl:addnews.html daterange:2453747-2453757
inurl:addnews.html daterange:2453757-2453767





Дата публикования: 2014-12-25; Прочитано: 183 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...