Parsing-Tutorial auf PHP
Grundlagen
Einführung in das Parsing
Einschränkungen von PHP
Zeitlimit für die Ausführung
Arbeitsspeicherlimit
Ignorieren von Browser-Abbrüchen
Platzierung des Parsers
Vorbereitende Maßnahmen
Reguläre Ausdrücke
Einführung
Parsen von Zeilen mit Umbrüchen
Parsen von russischem Text
Parsen einfacher Tags
Parsen von Tags mit Attributen
Parsen sich wiederholender Tags
Parsen von Tag-Blöcken
Zweistufiges Parsen von Blöcken
Problem mit Leerzeichen in Attributen
Problem mit Anführungszeichen in Attributen
Problem mit Tag-Namen
Vorbereinigung des Textes
Datenbereinigung beim Parsen
Probleme beim Parsen mit regulären Ausdrücken
Praxis zum Parsen mit regulären Ausdrücken
Bibliotheken
DiDom-Bibliothek
Installation
Parsen von Text aus einer Variable
Parsen von Text aus einer URL
Text des ersten Elements
HTML-Code des Elements
Innerer HTML-Code des Elements
CSS-Selektoren
Tag-Attribute
Suchen innerhalb von Elementen
Element-Array
Attribute für Element-Array
Dokumentation
Praktikum
Pfade
Normalisierung absoluter Pfade
Normalisierung relativer Pfade
Normalisierung verschobener Pfade
Universelle Pfadnormalisierung
Links zu fremden Websites
Zeichenkodierungen
Methoden
Funktion zum Abrufen von Seiten
Funktion zum Abrufen von Links
Parsing über Links
Stufenweise Parsing-Methode
Crawler-Methode auf Array-Basis
Crawler-Methode auf Datenbank-Basis
Crawler-Methode mit Aussiebungsverfahren
Parsing basierend auf sitemap.xml
Dateien
Parsen von Dateien
Parsen von Bildern
Parsen von CSS-Dateien
Parsen von JavaScript-Dateien
Parsen von Audiodateien
Parsen von Videodateien
Formulare
Formularversand mit GET-Methode
Formularversand mit POST-Methode
Fallstricke beim Formularversand
Automatische Autorisierung
CAPTCHA
Automatisierung
Logs beim Parsing
Cache beim Parsing
Speichern bei Abbruch
Geplanter Start im Browser
Geplanter Start im Hosting
Umgehung von Schutzmaßnahmen
Umgehung von Anti-Parsing-Schutz
Verzögerungen beim Parsen
IP-Wechsel unter häuslichen Bedingungen
IP-Wechsel beim Parsen
Cookies beim Parsen
HTTP-Header beim Parsen
USERAGENT beim Parsen
Mobile Version der Website
Nutzung der API