Φροντιστήριο Parsing σε PHP
Βασικές αρχές
Εισαγωγή στην ανάλυση
Περιορισμοί της PHP
Περιορισμός χρόνου εκτέλεσης
Περιορισμός μνήμης
Αγνόηση διακοπής του προγράμματος περιήγησης
Τοποθέτηση αναλυτή
Προπαρασκευαστικές χειρισμοί
Κανονικές Εκφράσεις
Εισαγωγή
Παρσαρίσμα γραμμών με αλλαγές
Παρσαρίσμα ρωσικού κειμένου
Παρσαρίσμα απλών ετικετών
Παρσαρίσμα ετικετών με χαρακτηριστικά
Παρσαρίσμα επαναλαμβανόμενων ετικετών
Παρσαρίσμα μπλοκ ετικετών
Διεπίπεδο παρσαρίσμα μπλοκ
Πρόβλημα κενών χαρακτηριστικών
Πρόβλημα εισαγωγικών χαρακτηριστικών
Πρόβλημα ονομάτων ετικετών
Προκαταρκτικό καθαρισμός κειμένου
Καθαρισμός δεδομένων κατά το παρσαρίσμα
Προβλήματα παρσαρίσματος με κανονικές εκφράσεις
Πρακτική στο παρσαρίσμα με κανονικές εκφράσεις
Βιβλιοθήκες
Βιβλιοθήκη DiDom
Εγκατάσταση
Ανάλυση κειμένου από μεταβλητή
Ανάλυση κειμένου από URL
Κείμενο πρώτου στοιχείου
Κώδικας HTML στοιχείου
Εσωτερικός κώδικας HTML στοιχείου
Επιλογείς CSS
Ιδιότητες ετικετών
Αναζήτηση μέσα σε στοιχεία
Πίνακας στοιχείων
Ιδιότητες για πίνακα στοιχείων
Τεκμηρίωση
Πρακτική
Διαδρομές
Κανονικοποίηση απόλυτων διαδρομών
Κανονικοποίηση σχετικών διαδρομών
Κανονικοποίηση μετατοπισμένων διαδρομών
Καθολική κανονικοποίηση διαδρομών
Σύνδεσμοι προς εξωτερικούς ιστότοπους
Κωδικοποιήσεις
Μέθοδοι
Συνάρτηση λήψης σελίδας
Συνάρτηση λήψης συνδέσμων
Ανάλυση μέσω συνδέσμων
Μέθοδος σταδιακής ανάλυσης
Μέθοδος crawler σε πίνακα
Μέθοδος crawler σε βάση δεδομένων
Μέθοδος crawler με απόρριψη
Ανάλυση βασισμένη σε sitemap.xml
Αρχεία
Ανάλυση αρχείων
Ανάλυση εικόνων
Ανάλυση αρχείων CSS
Ανάλυση αρχείων JavaScript
Ανάλυση αρχείων ήχου
Ανάλυση αρχείων βίντεο
Φόρμες
Αποστολή φορμών με μέθοδο GET
Αποστολή φορμών με μέθοδο POST
Κρυφοί κίνδυνοι κατά την αποστολή φορμών
Αυτόματη εξουσιοδότηση
Καπάτσα
Αυτοματοποίηση
Κούτσια κατά την ανάλυση
Προσωρινή μνήμη κατά την ανάλυση
Αποθήκευση κατά τη διακοπή
Εκκίνηση κατά πρόγραμμα στο πρόγραμμα περιήγησης
Εκκίνηση κατά πρόγραμμα στην υπηρεσία φιλοξενίας
Παρακάμψη Προστασίας
Παρακάμψη Προστασίας από Parsing
Καθυστερήσεις κατά το Parsing
Αλλαγή IP σε Οικιακές Συνθήκες
Αλλαγή IP κατά το Parsing
Cookies κατά το Parsing
HTTP Επικεφαλίδες κατά το Parsing
USERAGENT κατά το Parsing
Μόμπιλ Έκδοση Ιστότοπου
Χρήση API