Aug 03, 2018 22:55
Вообще webdriver + selenium в связке очень хорошо себя показывают, но offline и долго. К примеру опрос одного таргета занимает 161 минуту и высасывает 2 ГБ трафика, из которого мне надо лишь 2 МБ (максимум, на самом деле ещё меньше).
Сие очень опечалило настолько, что поставил приложеньку на смартфон, воткнул mitmproxy и прослушал API, удалось восстановить, но есть нюансы. Например, ограничение на 10 тысяч запросов в день. Мне надо больше. Надо запиливать ещё одного клиента, на сей раз под API.
Собрал таким образом (через селениум) только два таргета (всего около сотни). Добавил сравнение с предыдущим анализом, ну чтобы не делать лишнюю работу в случае расхождений. Думаю, всё же клиент существенно упростит мне задачу, и я смогу собирать более 1 таргета за ночь, а скажем 2 или 3.
Динамический ввод капчи - отдельная вещь. Осталось лишь пульнуть уведомление на смартфон, чтобы не киснуть возле компа всё время.
haskell,
selenium,
web programming