Скрапинг веб-сайтов с помощью Python, Митчелл Р., 2016.
Изучите методы скрапинга и краулинга веб-сайтов, чтобы получить доступ к неограниченному объему данных в любом уголке Интернета в любом формате. С помощью этого практического руководства вы узнаете, как использовать скрипты Python и веб-API, чтобы одновременно собрать и обработать данные с тысяч или даже миллионов веб-страниц.
Идеально подходящая для программистов, специалистов по безопасности и веб-администраторов, знакомых с языком Python, эта книга знакомит не толь-ко с основными принципами работы веб-скраперов, но и углубляется в более сложные темы, такие как анализ сырых данных или использование скраперов для тестирования интерфейса веб-сайта. Примеры программного кода, приведенные в книге, помогут разобраться в этих принципах на практике.
Соединение с Интернетом.
Если вы не занимались организацией сетей или сетевой безопасностью, то работа Интернета может показаться вам немного таинственной. Мы не задумываемся о том, что, собственно, сеть делает каждый раз, когда мы открываем браузер и переходим на http://google.com, да и сейчас это нам не нужно. На самом деле я бы назвала фантастикой тот факт, что компьютерные интерфейсы достигли такого совершенства, что большинство пользователей Интернета не имеют ни малейшего представления о том. как он работает.
Однако скрапинг следует рассматривать не только как веб-интерфейс, лишь на уровне браузера (в плане обработки всех этих HTML, CSS и JavaScript), он также связан с типом сетевого соединения.
Чтобы дать вам некоторое представление об инфраструктуре, которая используется для загрузки информации в ваш браузер, приведем следующий пример. У Алисы есть веб-сервер. Боб использует настольный компьютер, который пытается подключиться к серверу Алисы. Когда одна машина хочет подсоединиться к другой, происходит следующий обмен:
1. Компьютер Боба посылает последовательность битов, представленных в виде низкого и высокого напряжений. Запрос Боба разбит на фрагменты, к каждому фрагменту добавлен заголовок со служебной информацией (этим заведует протокол TCP). Передачей отдельных фрагментов от компьютера Боба до компьютера Алисы заведует протокол IP.
2. Локальный маршрутизатор Боба получает эту последовательность и интерпретирует ее как пакет с помощью собственного MAC-адреса и направляет на IP-адрес Алисы. Маршрутизатор заменяет в заголовке пакета обратный адрес на свой и посылает пакет дальше.
3. Пакет Боба проходит несколько промежуточных серверов, которые направляют его по правильному физическому/проводному пути на сервер Алисы.
4. Сервер Алисы получает пакет на свой IP-адрес.
5. Сервер Алисы считывает порт назначения пакета (почти всегда это порт 80 для веб-приложений, это что-то вроде «номера квартиры» в пакетной передаче данных, где IP-адрес является «улицей») в заголовке и передает его в соответствующее приложение - приложение веб-сервера.
Содержание.
Предисловие.
Вступление.
ЧАСТЬ I. ПОСТРОЕНИЕ СКРАПЕРОВ.
ЧАСТЬ II. ПРОДВИНУТЫЙ СКРАПИНГ.
Приложения.
Об авторе.
Колофон.
Предметный указатель.
Купить .
Теги: скрапинг :: сайт :: Python :: Митчелл :: 2016
Смотрите также учебники, книги и учебные материалы:
- Git для профессионального программиста, Чакон С., Штрауб Б., 2016
- Программируем с Minecraft, создай свой мир с помощью Python, Ричардсон К., Ломакин С., Гаджиев Г., 2017
- 1С, академия ERP, управление человеческими ресурсами, Иванова С.В., Ветлужских Е.Н., Вешнякова Е.А., Малыгина З.Е., 2018
- Статистика для менеджеров с использованием Microsoft Excel, Левин Д.М., Стефан Д.К., Тимоти С., Беренсон М.Л., 2004
- Python на примерах, практический курс по программированию, Васильев А.Н., 2016
- Путь Python, черный пояс по разработке, масштабированию, тестированию и развертыванию, Данжу Д., 2020
- Практическое руководство по экстремальному программированию, Астелс Д., Миллер Г., Новак М., 2002
- PHP notes for professionals