Учебник парсинга на PHP
Основы
Введение в парсинг
Ограничения PHP
Ограничение на время выполнения
Ограничение на память
Игнорирование обрыва браузера
Размещение парсера
Подготовительные манипуляции
Регулярки
Введение
Парсинг строк с переносами
Парсинг русского текста
Парсинг простых тегов
Парсинг тегов с атрибутами
Парсинг повторяющися тегов
Парсинг блоков тегов
Двухэтапный парсинг блоков
Проблема пробелов атрибутов
Проблема кавычек атрибутов
Проблема имен тегов
Предварительная чистка текста
Чистка данных при парсинге
Проблемы парсинга регулярками
Практика на парсинг регулярками
Библиотеки
Библиотека DiDom
Установка
Разбор текста из переменной
Разбор текста из URL
Текст первого элемента
HTML код элемента
Внутренний HTML код элемента
CSS селекторы
Атрибуты тегов
Поиск внутри элементов
Массив элементов
Атрибуты для массива элементов
Документация
Практика
Пути
Нормализация абсолютных путей
Нормализация относительных путей
Нормализация сдвинутых путей
Универсальная нормализация путей
Ссылки на чужие сайты
Кодировки
Методы
Функция получения страницы
Функция получения ссылок
Парсинг по ссылкам
Поэтапный метод парсинга
Метод паука на массиве
Метод паука на базе
Метод паука с отсевом
Парсинг на основе sitemap.xml
Файлы
Парсинг файлов
Парсинг картинок
Парсинг CSS файлов
Парсинг JavaScript файлов
Парсинг аудио файлов
Парсинг видео файлов
Формы
Отправка форм методом GET
Отправка форм методом POST
Подводные камни при отправке форм
Автоматическая авторизация
Капча
Автоматизация
Логи при парсинге
Кеш при парсинге
Сохранение при обрыве
Запуск по расписанию в браузере
Запуск по расписанию на хостинге
Обход защиты
Обход защиты от парсинга
Задержки при парсинге
Смена IP в домашних условиях
Смена IP при парсинге
Куки при парсинге
HTTP заголовки при парсинге
USERAGENT при парсинге
Мобильная версия сайта
Использование API