Tutorial de análisis sintáctico (parsing) en PHP
Fundamentos
Introducción al análisis
Limitaciones de PHP
Límite de tiempo de ejecución
Límite de memoria
Ignorar la interrupción del navegador
Colocación del analizador
Manipulaciones preparatorias
Expresiones Regulares
Introducción
Análisis de cadenas con saltos de línea
Análisis de texto ruso
Análisis de etiquetas simples
Análisis de etiquetas con atributos
Análisis de etiquetas repetitivas
Análisis de bloques de etiquetas
Análisis de bloques en dos etapas
Problema de los espacios en atributos
Problema de las comillas en atributos
Problema de los nombres de las etiquetas
Limpieza preliminar del texto
Limpieza de datos durante el análisis
Problemas del análisis con expresiones regulares
Práctica de análisis con expresiones regulares
Bibliotecas
Biblioteca DiDom
Instalación
Analizar texto desde variable
Analizar texto desde URL
Texto del primer elemento
Código HTML del elemento
Código HTML interno del elemento
Selectores CSS
Atributos de etiquetas
Búsqueda dentro de elementos
Array de elementos
Atributos para array de elementos
Documentación
Práctica
Rutas
Normalización de rutas absolutas
Normalización de rutas relativas
Normalización de rutas desplazadas
Normalización universal de rutas
Enlaces a sitios externos
Codificaciones
Métodos
Función de obtención de página
Función de obtención de enlaces
Análisis por enlaces
Método de análisis por etapas
Método de araña en array
Método de araña en base de datos
Método de araña con descarte
Análisis basado en sitemap.xml
Archivos
Análisis de archivos
Análisis de imágenes
Análisis de archivos CSS
Análisis de archivos JavaScript
Análisis de archivos de audio
Análisis de archivos de video
Formularios
Envío de formularios con el método GET
Envío de formularios con el método POST
Trampas en el envío de formularios
Autorización automática
CAPTCHA
Automatización
Registros (Logs) en el análisis
Caché en el análisis
Guardado ante interrupción
Ejecución programada en el navegador
Ejecución programada en el hosting
Evasión de Protecciones
Evitar las protecciones contra el análisis web
Retrasos en el análisis web
Cambio de IP en condiciones domésticas
Cambio de IP en el análisis web
Cookies en el análisis web
Encabezados HTTP en el análisis web
USERAGENT en el análisis web
Versión móvil del sitio web
Uso de API