Tutorial sul Parsing in PHP
Basi
Introduzione al parsing
Limitazioni di PHP
Limite di tempo di esecuzione
Limite di memoria
Ignorare l'interruzione del browser
Posizionamento del parser
Manipolazioni preparatorie
Espressioni Regolari
Introduzione
Parsing di stringhe con a capo
Parsing di testo russo
Parsing di tag semplici
Parsing di tag con attributi
Parsing di tag ripetuti
Parsing di blocchi di tag
Parsing a due fasi dei blocchi
Problema degli spazi negli attributi
Problema delle virgolette negli attributi
Problema dei nomi dei tag
Pulizia preliminare del testo
Pulizia dei dati durante il parsing
Problemi del parsing con regex
Pratica sul parsing con regex
Librerie
Libreria DiDom
Installazione
Analisi del testo da una variabile
Analisi del testo da un URL
Testo del primo elemento
Codice HTML dell'elemento
Codice HTML interno dell'elemento
Selettori CSS
Attributi dei tag
Ricerca all'interno degli elementi
Array di elementi
Attributi per un array di elementi
Documentazione
Pratica
Percorsi
Normalizzazione dei percorsi assoluti
Normalizzazione dei percorsi relativi
Normalizzazione dei percorsi spostati
Normalizzazione universale dei percorsi
Link a siti esterni
Codifiche
Metodi
Funzione di ottenimento della pagina
Funzione di ottenimento dei link
Parsing tramite link
Metodo di parsing per fasi
Metodo del crawler su array
Metodo del crawler su database
Metodo del crawler con scarto
Parsing basato su sitemap.xml
File
Parsing di file
Parsing di immagini
Parsing di file CSS
Parsing di file JavaScript
Parsing di file audio
Parsing di file video
Forme
Invio di moduli con il metodo GET
Invio di moduli con il metodo POST
Insidie nell'invio di moduli
Autorizzazione automatica
CAPTCHA
Automazione
Log durante il parsing
Cache durante il parsing
Salvataggio in caso di interruzione
Avvio programmato nel browser
Avvio programmato sull'hosting
Superamento delle protezioni
Superamento delle protezioni dal parsing
Ritardi nel parsing
Cambio IP in ambiente domestico
Cambio IP durante il parsing
Cookies durante il parsing
Intestazioni HTTP durante il parsing
USERAGENT durante il parsing
Versione mobile del sito
Utilizzo delle API