Tutoriel de parsing en PHP
Bases
Introduction au parsing
Limitations du PHP
Limite de temps d'exécution
Limite de mémoire
Ignorer l'interruption du navigateur
Placement de l'analyseur
Manipulations préparatoires
Expressions régulières
Introduction
Analyse de chaînes avec retours à la ligne
Analyse de texte russe
Analyse de balises simples
Analyse de balises avec attributs
Analyse de balises répétitives
Analyse de blocs de balises
Analyse en deux étapes des blocs
Problème des espaces dans les attributs
Problème des guillemets dans les attributs
Problème des noms de balises
Nettoyage préalable du texte
Nettoyage des données lors de l'analyse
Problèmes d'analyse avec les expressions régulières
Pratique sur l'analyse avec les expressions régulières
Bibliothèques
Bibliothèque DiDom
Installation
Analyse de texte à partir d'une variable
Analyse de texte à partir d'une URL
Texte du premier élément
Code HTML de l'élément
Code HTML interne de l'élément
Sélecteurs CSS
Attributs des balises
Recherche à l'intérieur des éléments
Tableau d'éléments
Attributs pour un tableau d'éléments
Documentation
Pratique
Chemins
Normalisation des chemins absolus
Normalisation des chemins relatifs
Normalisation des chemins décalés
Normalisation universelle des chemins
Liens vers des sites externes
Encodages
Méthodes
Fonction d'obtention de page
Fonction d'obtention des liens
Parsing par liens
Méthode de parsing par étapes
Méthode du crawler sur tableau
Méthode du crawler sur base de données
Méthode du crawler avec élimination
Parsing basé sur sitemap.xml
Fichiers
Analyse de fichiers
Analyse d'images
Analyse de fichiers CSS
Analyse de fichiers JavaScript
Analyse de fichiers audio
Analyse de fichiers vidéo
Formulaires
Envoi de formulaires par la méthode GET
Envoi de formulaires par la méthode POST
Écueils lors de l'envoi de formulaires
Autorisation automatique
CAPTCHA
Automatisation
Journaux lors du parsing
Cache lors du parsing
Sauvegarde en cas d'interruption
Lancement planifié dans le navigateur
Lancement planifié sur l'hébergement
Contournement des protections
Contournement de la protection contre le parsing
Délais dans le parsing
Changement d'IP en conditions domestiques
Changement d'IP lors du parsing
Cookies lors du parsing
En-têtes HTTP lors du parsing
USERAGENT lors du parsing
Version mobile du site
Utilisation de l'API