PHP Web scraping oktatóanyag
Alapok
Bevezetés a parsolásba
A PHP korlátai
Végrehajtási időkorlát
Memóriakorlát
A böngésző megszakításának figyelmen kívül hagyása
A parser elhelyezése
Előkészítő manipulációk
Reguláris kifejezések
Bevezetés
Sortörésekkel ellátott sztringek elemzése
Orosz szöveg elemzése
Egyszerű címkék elemzése
Attribútumokkal rendelkező címkék elemzése
Ismétlődő címkék elemzése
Címkeblokkok elemzése
Kétlépcsős blokkelemzés
Az attribútumok szóközproblémája
Az attribútumok idézőjel-problémája
A címkenevek problémája
Szöveg előtisztítása
Adattisztítás elemzés közben
Reguláris kifejezéssel történő elemzés problémái
Gyakorlat a reguláris kifejezéssel történő elemzésre
Könyvtárak
DiDom könyvtár
Telepítés
Szöveg elemzése változóból
Szöveg elemzése URL-ből
Az első elem szövege
Elem HTML kódja
Elem belső HTML kódja
CSS szelektorok
Címkék attribútumai
Keresés elemeken belül
Elemek tömbje
Attribútumok elemek tömbjéhez
Dokumentáció
Gyakorlat
Útvonalak
Abszolút útvonalak normalizálása
Relatív útvonalak normalizálása
Eltolt útvonalak normalizálása
Univerzális útvonalnormalizálás
Linkek más weboldalakra
Karakterkódolások
Metódusok
Oldalszöveg lekérő függvény
Linkek lekérő függvény
Parszolás linkek alapján
Lépésenkénti parszolási módszer
Pók módszer tömbbel
Pók módszer adatbázissal
Pók módszer kiszűréssel
Parszolás sitemap.xml alapján
Fájlok
Fájlok elemzése
Képek elemzése
CSS fájlok elemzése
JavaScript fájlok elemzése
Hangfájlok elemzése
Videófájlok elemzése
Űrlapok
Űrlapok elküldése GET módszerrel
Űrlapok elküldése POST módszerrel
Bukások az űrlapküldéskor
Automatikus azonosítás
CAPTCHA
Automatizálás
Naplózás a parsolásnál
Gyorsítótár a parsolásnál
Mentés megszakadáskor
Ütemezett indítás böngészőben
Ütemezett indítás hostingon
Védelem megkerülése
Parszing elleni védelem megkerülése
Késleltetések a parszing során
IP-cím váltás otthoni körülmények között
IP-cím váltás parszing során
Sütik a parszing során
HTTP fejlécek a parszing során
USERAGENT a parszing során
Weboldal mobil verziója
API használata