Tutoriel de parsing en PHP

Bases

Introduction au parsing Limitations du PHP Limite de temps d'exécution Limite de mémoire Ignorer l'interruption du navigateur Placement de l'analyseur Manipulations préparatoires

Expressions régulières

Introduction Analyse de chaînes avec retours à la ligne Analyse de texte russe Analyse de balises simples Analyse de balises avec attributs Analyse de balises répétitives Analyse de blocs de balises Analyse en deux étapes des blocs Problème des espaces dans les attributs Problème des guillemets dans les attributs Problème des noms de balises Nettoyage préalable du texte Nettoyage des données lors de l'analyse Problèmes d'analyse avec les expressions régulières Pratique sur l'analyse avec les expressions régulières

Bibliothèques

Liste des bibliothèques

Bibliothèque DiDom

Installation Analyse de texte à partir d'une variable Analyse de texte à partir d'une URL Texte du premier élément Code HTML de l'élément Code HTML interne de l'élément Sélecteurs CSS Attributs des balises Recherche à l'intérieur des éléments Tableau d'éléments Attributs pour un tableau d'éléments Documentation Pratique

Chemins

Normalisation des chemins absolus Normalisation des chemins relatifs Normalisation des chemins décalés Normalisation universelle des chemins Liens vers des sites externes

Encodages

Obtenir l'encodage de la page Normalisation de l'encodage

Méthodes

Fonction d'obtention de page Fonction d'obtention des liens Parsing par liens Méthode de parsing par étapes Méthode du crawler sur tableau Méthode du crawler sur base de données Méthode du crawler avec élimination Parsing basé sur sitemap.xml

Fichiers

Analyse de fichiers Analyse d'images Analyse de fichiers CSS Analyse de fichiers JavaScript Analyse de fichiers audio Analyse de fichiers vidéo

Formulaires

Envoi de formulaires par la méthode GET Envoi de formulaires par la méthode POST Écueils lors de l'envoi de formulaires Autorisation automatique

CAPTCHA

Introduction Fonctionnement du CAPTCHA Contournement du CAPTCHA Services de reconnaissance

Automatisation

Journaux lors du parsing Cache lors du parsing Sauvegarde en cas d'interruption Lancement planifié dans le navigateur Lancement planifié sur l'hébergement

Contournement des protections

Contournement de la protection contre le parsing Délais dans le parsing Changement d'IP en conditions domestiques Changement d'IP lors du parsing Cookies lors du parsing En-têtes HTTP lors du parsing USERAGENT lors du parsing Version mobile du site Utilisation de l'API

Contenu dynamique

Problème Analyse AJAX

Pratique

Pratique initiale Pratique sur l'autopublication Pratique finale
bydeenesfrptru