Tutorial de análisis sintáctico (parsing) en PHP

Fundamentos

Introducción al análisis Limitaciones de PHP Límite de tiempo de ejecución Límite de memoria Ignorar la interrupción del navegador Colocación del analizador Manipulaciones preparatorias

Expresiones Regulares

Introducción Análisis de cadenas con saltos de línea Análisis de texto ruso Análisis de etiquetas simples Análisis de etiquetas con atributos Análisis de etiquetas repetitivas Análisis de bloques de etiquetas Análisis de bloques en dos etapas Problema de los espacios en atributos Problema de las comillas en atributos Problema de los nombres de las etiquetas Limpieza preliminar del texto Limpieza de datos durante el análisis Problemas del análisis con expresiones regulares Práctica de análisis con expresiones regulares

Bibliotecas

Lista de bibliotecas

Biblioteca DiDom

Instalación Analizar texto desde variable Analizar texto desde URL Texto del primer elemento Código HTML del elemento Código HTML interno del elemento Selectores CSS Atributos de etiquetas Búsqueda dentro de elementos Array de elementos Atributos para array de elementos Documentación Práctica

Rutas

Normalización de rutas absolutas Normalización de rutas relativas Normalización de rutas desplazadas Normalización universal de rutas Enlaces a sitios externos

Codificaciones

Obtención de la codificación de la página Normalización de la codificación

Métodos

Función de obtención de página Función de obtención de enlaces Análisis por enlaces Método de análisis por etapas Método de araña en array Método de araña en base de datos Método de araña con descarte Análisis basado en sitemap.xml

Archivos

Análisis de archivos Análisis de imágenes Análisis de archivos CSS Análisis de archivos JavaScript Análisis de archivos de audio Análisis de archivos de video

Formularios

Envío de formularios con el método GET Envío de formularios con el método POST Trampas en el envío de formularios Autorización automática

CAPTCHA

Introducción Funcionamiento del CAPTCHA Evitar el CAPTCHA Servicios de reconocimiento

Automatización

Registros (Logs) en el análisis Caché en el análisis Guardado ante interrupción Ejecución programada en el navegador Ejecución programada en el hosting

Evasión de Protecciones

Evitar las protecciones contra el análisis web Retrasos en el análisis web Cambio de IP en condiciones domésticas Cambio de IP en el análisis web Cookies en el análisis web Encabezados HTTP en el análisis web USERAGENT en el análisis web Versión móvil del sitio web Uso de API

Contenido Dinámico

Problema Análisis AJAX

Práctica

Práctica inicial Práctica en auto-publicación Práctica final
bydeenesfrptru