Tutorial parsowania w PHP
Podstawy
Wprowadzenie do parsowania
Ograniczenia PHP
Ograniczenie czasu wykonania
Ograniczenie pamięci
Ignorowanie przerwania przeglądarki
Umieszczenie parsera
Manipulacje przygotowawcze
Wyrażenia regularne
Wprowadzenie
Parsowanie wierszy z zawijaniem
Parsowanie tekstu rosyjskiego
Parsowanie prostych tagów
Parsowanie tagów z atrybutami
Parsowanie powtarzających się tagów
Parsowanie bloków tagów
Dwuetapowe parsowanie bloków
Problem spacji atrybutów
Problem cudzysłowów atrybutów
Problem nazw tagów
Wstępne czyszczenie tekstu
Czyszczenie danych podczas parsowania
Problemy parsowania wyrażeniami regularnymi
Praktyka parsowania wyrażeniami regularnymi
Biblioteki
Biblioteka DiDom
Instalacja
Analiza tekstu ze zmiennej
Analiza tekstu z URL
Tekst pierwszego elementu
Kod HTML elementu
Wewnętrzny kod HTML elementu
Selektory CSS
Atrybuty tagów
Wyszukiwanie wewnątrz elementów
Tablica elementów
Atrybuty dla tablicy elementów
Dokumentacja
Praktyka
Ścieżki
Normalizacja ścieżek bezwzględnych
Normalizacja ścieżek względnych
Normalizacja przesuniętych ścieżek
Uniwersalna normalizacja ścieżek
Linki do obcych stron
Kodowanie
Metody
Funkcja pobierania strony
Funkcja pobierania linków
Parsowanie po linkach
Metoda etapowego parsowania
Metoda pająka na tablicy
Metoda pająka na bazie danych
Metoda pająka z odsiewem
Parsowanie na podstawie sitemap.xml
Pliki
Parsowanie plików
Parsowanie obrazów
Parsowanie plików CSS
Parsowanie plików JavaScript
Parsowanie plików audio
Parsowanie plików wideo
Formularze
Wysyłanie formularzy metodą GET
Wysyłanie formularzy metodą POST
Pułapki przy wysyłaniu formularzy
Automatyczna autoryzacja
Captcha
Automatyzacja
Logi podczas parsowania
Pamięć podręczna podczas parsowania
Zapisywanie przy przerwaniu
Uruchamianie według harmonogramu w przeglądarce
Uruchamianie według harmonogramu na hostingu
Omijanie zabezpieczeń
Omijanie zabezpieczeń przed parsowaniem
Opóźnienia przy parsowaniu
Zmiana IP w warunkach domowych
Zmiana IP przy parsowaniu
Ciasteczka przy parsowaniu
Nagłówki HTTP przy parsowaniu
USERAGENT przy parsowaniu
Wersja mobilna strony
Wykorzystanie API