Tutorial de Parsare în PHP

Bazele

Introducere în parsing Limitările PHP Limită de timp de execuție Limită de memorie Ignorarea întreruperii browser-ului Plasarea parser-ului Manipulări pregătitoare

Expresii regulate

Introducere Parsarea șirurilor cu întreruperi de linie Parsarea textului în limba rusă Parsarea tag-urilor simple Parsarea tag-urilor cu atribute Parsarea tag-urilor care se repetă Parsarea blocurilor de tag-uri Parsarea în două etape a blocurilor Problema spațiilor din atribute Problema ghilimelelor din atribute Problema numelor tag-urilor Curățarea preliminară a textului Curățarea datelor la parsare Problemele parsării cu expresii regulate Practică pe parsarea cu expresii regulate

Biblioteci

Lista bibliotecilor

Biblioteca DiDom

Instalare Parsarea textului dintr-o variabilă Parsarea textului dintr-un URL Textul primului element Codul HTML al elementului Codul HTML intern al elementului Selectoare CSS Atributele tagurilor Căutarea în interiorul elementelor Vectorul de elemente Atribute pentru vectorul de elemente Documentația Practică

Căi

Normalizarea căilor absolute Normalizarea căilor relative Normalizarea căilor deplasate Normalizarea universală a căilor Link-uri către site-uri externe

Codificări

Obținerea codificării paginii Normalizarea codificării

Metode

Funcția de obținere a paginii Funcția de obținere a linkurilor Parsare după linkuri Metodă de parsare în etape Metoda păianjenului pe array Metoda păianjenului pe bază de date Metoda păianjenului cu eliminare Parsare bazată pe sitemap.xml

Fișiere

Parsarea fișierelor Parsarea imaginilor Parsarea fișierelor CSS Parsarea fișierelor JavaScript Parsarea fișierelor audio Parsarea fișierelor video

Formulare

Trimiterea formularelor prin metoda GET Trimiterea formularelor prin metoda POST Pietre subacvatice la trimiterea formularelor Autorizarea automată

Captcha

Introducere Funcționarea Captcha Ocolirea Captcha Servicii de recunoaștere

Automatizare

Jurnale (Logs) la parsare Cache la parsare Salvare la întrerupere Lansare programată în browser Lansare programată pe hosting

Ocolirea protecțiilor

Ocolirea protecțiilor împotriva parsării Întârzieri la parsare Schimbarea IP-ului în condiții casnice Schimbarea IP-ului la parsare Cookie-uri la parsare Antete HTTP la parsare USERAGENT la parsare Versiunea mobilă a site-ului Utilizarea API

Conținut dinamic

Problema Parsarea AJAX

Practică

Exercițiu inițial Exercițiu pe auto-postare Exercițiu final
rouz