Tutorial de Parsare în PHP
Bazele
Introducere în parsing
Limitările PHP
Limită de timp de execuție
Limită de memorie
Ignorarea întreruperii browser-ului
Plasarea parser-ului
Manipulări pregătitoare
Expresii regulate
Introducere
Parsarea șirurilor cu întreruperi de linie
Parsarea textului în limba rusă
Parsarea tag-urilor simple
Parsarea tag-urilor cu atribute
Parsarea tag-urilor care se repetă
Parsarea blocurilor de tag-uri
Parsarea în două etape a blocurilor
Problema spațiilor din atribute
Problema ghilimelelor din atribute
Problema numelor tag-urilor
Curățarea preliminară a textului
Curățarea datelor la parsare
Problemele parsării cu expresii regulate
Practică pe parsarea cu expresii regulate
Biblioteci
Biblioteca DiDom
Instalare
Parsarea textului dintr-o variabilă
Parsarea textului dintr-un URL
Textul primului element
Codul HTML al elementului
Codul HTML intern al elementului
Selectoare CSS
Atributele tagurilor
Căutarea în interiorul elementelor
Vectorul de elemente
Atribute pentru vectorul de elemente
Documentația
Practică
Căi
Normalizarea căilor absolute
Normalizarea căilor relative
Normalizarea căilor deplasate
Normalizarea universală a căilor
Link-uri către site-uri externe
Codificări
Metode
Funcția de obținere a paginii
Funcția de obținere a linkurilor
Parsare după linkuri
Metodă de parsare în etape
Metoda păianjenului pe array
Metoda păianjenului pe bază de date
Metoda păianjenului cu eliminare
Parsare bazată pe sitemap.xml
Fișiere
Parsarea fișierelor
Parsarea imaginilor
Parsarea fișierelor CSS
Parsarea fișierelor JavaScript
Parsarea fișierelor audio
Parsarea fișierelor video
Formulare
Trimiterea formularelor prin metoda GET
Trimiterea formularelor prin metoda POST
Pietre subacvatice la trimiterea formularelor
Autorizarea automată
Captcha
Automatizare
Jurnale (Logs) la parsare
Cache la parsare
Salvare la întrerupere
Lansare programată în browser
Lansare programată pe hosting
Ocolirea protecțiilor
Ocolirea protecțiilor împotriva parsării
Întârzieri la parsare
Schimbarea IP-ului în condiții casnice
Schimbarea IP-ului la parsare
Cookie-uri la parsare
Antete HTTP la parsare
USERAGENT la parsare
Versiunea mobilă a site-ului
Utilizarea API