Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Парсинг с использованием прокси



Настройки -> Список прокси для парсинга посиковой системы
Если галочка отключена то парсинг идет с вашего локального IP
Если включена то из заданного списка прокси.
Нажимая редактировать список прокси видим форму.
Левый спсиок - список рабочих прокси, правый список - не рабочие прокси
В программу встроен прокси-чекер.

Опции прокси чекера:

1) Макс время отклика прокси при проверке в милисекундах.
При чекинге прокси, если она не отвечает в течение указанного времени, она будет занесена в черный список.

2) Проверять прокси перед использованием, если галочка включена и задано время, то при парсинге, если время последней проверки прокси было более
чем указанное число в миллисекундах, то будет выполнен его повторный чекинг. Если вы уверены в вашем прокси (например платные хорошие прокси), то данная опция вам не понадобится

3) Неактивность прокси при появлении каптчи. Если каптча для прокси найдена, то прокси будет не рабочей в течении указанного вреемни. Не советуем включать данную опцию если не особо понимаете ее смысл, т.к. практически для всех прокси нужен ввод каптчи хотя бы 1 раз.
Если включаете опцию то может оказаться что все прокси были занесены в список ожидания, об этом программа вас проинформирует в логах.


Развеем мнения людей насчет прокси:


Не используйте прокси с слабым локальным каналом интернет сети и публичными медленными прокси:


Все люди почему то считают, что чем больше прокси вы введете и выставите потоков для парсинга тем быстрее вы соберете базу ссылок.


Это ошибочное мнение, если у вас плохие прокси и слабый канал, то использование прокси не имеет смысла.


Почему сложилось такое мнение: дело в том что все парсеры (за исключение нашего) не умеют работаь с сессиями и кукисами, по крайней мере нет таких парсеров, которые бы хранили эти данные для каждой прокси, поэтому люди чтобы избежать бана и используют огромные списки прокси.


Наш парсер имеет уникальный движок, который хранит сессии для каждого IP адреса и эмулирует человеческое поведение.

Поэтому поисковая система не понимает что это парсер, если вы парсите ее с использованием разумного количества потоков (рекумендуем использовать на одну поисковую систему не более 10 потоков). В результате вы получаете всего 1 каптчу на несколько тысяч запросов. И это с задержкой в 50-80 милисекунд между запросам! Выбрав 2 поисковика можем использовать уже 20 поисковых потоков.

А теперь выполним небольшой математический расчет. Средняя публичная прокси выполняет запрос в течении 10-15 секунд.

Это значит за 15 секунд в 15 потоков для 15 прокси вы обработаете 15 запросов,
т.е. в секунду 1.5 запросов с использованием 15 проски.
Чтобы прокси не тормозили парсинг и выполняли 15 запросов в секунду вам нужно иметь
15 / 1.5 = 10, т.е. в 10 раз больше прокси и открытых потоков.
Получаем 150 потоков и 150 рабочих прокси.

Теперь если наш канал позволяет обработать всего на всего 15 потоков, то зачем нам прокси? Данную нагрузку программа выдержит без проблем, плюс ко всему от проски могут быть задержки, может быть потеряна выдача, проксии может не поддерживать POST запросы.

Как написано выше 20 потоков для 2х поисковиков вполне реально. Даже 30 реально.

А 30 потоков с локалки = 300 прокси потоков.

И то наврятли ваша сеть имеет такой входящий трафик средняя величина запроса GET к яндексу равна 50кб, к гуглу 60кб.

Т.е. чтобы обработать 30 потоков вам надо иметь пропускную способность в ~ 30*50кб = 1500 килобайт/секунду.

Что может позволит не каждый. Тогда о чем тут говорить для 300 потоков прокси?





Дата публикования: 2014-12-25; Прочитано: 245 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...