Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Вкладка парсинг



Для начала парсинга нам нужно выбрать те или иные поисковые системы в которых будет производиться парсинг(включать или отключать вывод поисковых систем на экране программы, можно зайдя в справочники-поисковые системы)

Важно: Не нужно выбирать несколько одинаковых поисковиков:

Google Search API – требует поисковой ключ (вставить можно в справочниках – поисковых системах) Позволяет искать 8 ссылок на странице, всего 8 страниц, без капчи, задержек и бана.

Для Yahoo тоже есть API, но в связи с переходом yahoo на поисковой движок Микрософта bing, данной функционал отключен.

Не нужно включать Google.ru и Google.com единовременно, это увеличивает ваши шансы на то чтобы наткнуться на бан поисковика.

Tut.by – замена поисковика Яндекс.ру, меньше выдает капчу.

Rambler.ru – замена поисковика Яндекс.ру, меньше выдает капчу.

После выбора поисковых систем, приступим к настройке фильтра и потоков:

Потоки на парсинг: Зависит от того, какой у вас канал и сколько выбрано поисковиков. Из расчета на 1 поисковик – 10 потоков. При канале 50 мб/с, парсинг до 100 потоков. Чем больше потоков, тем больше риск бана, и большей траты на капчу.

Далее выбираем CMS для анализа, если вам не нужен анализ на CMS выбираете все ссылки. Быстрый анализ, предназначен для отбора по добавочным урлам, которые указаны в справочники-анализаторы(у каждой CMS). В фильтре анализа вы можете выбрать от какого тиц,пр и AlexRank добавлять сайты в правый столбик.

Для того, чтобы вывести в таблицу значения Тиц, Пр, Alexrank (доступно только при работе с базой данных), вам нужно нажать «Настроить внешний вид и столбцы таблицы».

Потоки для Анализа зависит от канала и загруженности компьютера: рекомендовано до 1000.

Все ссылки в левой колонке "временные". Если ссылок слева немного, то программа также отсекает идентичные ссылки. Но когда их много отсечка отключается автоматом, чтобы не нагружать процессор, при этом отсечка дублей происходит во время их анализа
с помощью Анализаторов.

Есть 2 вида исключения дублей:


1) Исключение полностью идентичных ссылок
2) Исключение ссылок в пределах домена (будут найдена первая ссылка по домену, при нахождении ссылки с данным доменом повторно, она не будет включена в список)
После анализа ссылок они автоматически добавляются в правый список.





Дата публикования: 2014-12-25; Прочитано: 166 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.651 с)...