บทเรียนการเว็บสแครปปิงด้วย PHP
พื้นฐาน
รู้เบื้องต้นเกี่ยวกับการแยกวิเคราะห์
ข้อจำกัดของ PHP
ข้อจำกัดเวลาทำงาน
ข้อจำกัดการใช้หน่วยความจำ
การเพิกเฉยต่อการยกเลิกการทำงานของเบราว์เซอร์
การจัดวางตัวแยกวิเคราะห์
การเตรียมการและจัดการเบื้องต้น
นิพจน์ปรกติ
บทนำ
การแยกวิเคราะห์ข้อความที่มีการขึ้นบรรทัดใหม่
การแยกวิเคราะห์ข้อความภาษารัสเซีย
การแยกวิเคราะห์แท็กธรรมดา
การแยกวิเคราะห์แท็กที่มีแอตทริบิวต์
การแยกวิเคราะห์แท็กที่ซ้ำกัน
การแยกวิเคราะห์บล็อกของแท็ก
การแยกวิเคราะห์บล็อกสองขั้นตอน
ปัญหาช่องว่างของแอตทริบิวต์
ปัญหาอัญประกาศของแอตทริบิวต์
ปัญหาชื่อของแท็ก
การทำความสะอาดข้อความล่วงหน้า
การทำความสะอาดข้อมูลระหว่างการแยกวิเคราะห์
ปัญหาการแยกวิเคราะห์ด้วยนิพจน์ปรกติ
แบบฝึกหัดการแยกวิเคราะห์ด้วยนิพจน์ปรกติ
ไลบรารี
ไลบรารี DiDom
การติดตั้ง
การแยกวิเคราะห์ข้อความจากตัวแปร
การแยกวิเคราะห์ข้อความจาก URL
ข้อความขององค์ประกอบแรก
โค้ด HTML ขององค์ประกอบ
โค้ด HTML ภายในขององค์ประกอบ
ตัวเลือก CSS
คุณลักษณะของแท็ก
การค้นหาภายในองค์ประกอบ
อาร์เรย์ขององค์ประกอบ
คุณลักษณะสำหรับอาร์เรย์ขององค์ประกอบ
เอกสารประกอบ
ภาคปฏิบัติ
เส้นทาง
การทำให้เส้นทางสัมบูรณ์เป็นมาตรฐาน
การทำให้เส้นทางสัมพัทธ์เป็นมาตรฐาน
การทำให้เส้นทางที่ถูกเลื่อนเป็นมาตรฐาน
การทำให้เส้นทางเป็นมาตรฐานแบบสากล
ลิงก์ไปยังเว็บไซต์อื่น
การเข้ารหัสตัวอักษร
วิธีการ
ฟังก์ชันดึงหน้าเว็บ
ฟังก์ชันดึงลิงก์
การแยกวิเคราะห์ตามลิงก์
วิธีการแยกวิเคราะห์เป็นขั้นตอน
วิธีการของครอว์เลอร์บนอาร์เรย์
วิธีการของครอว์เลอร์บนฐานข้อมูล
วิธีการของครอว์เลอร์แบบคัดกรอง
การแยกวิเคราะห์จาก sitemap.xml
ไฟล์
การแยกวิเคราะห์ไฟล์
การแยกวิเคราะห์รูปภาพ
การแยกวิเคราะห์ไฟล์ CSS
การแยกวิเคราะห์ไฟล์ JavaScript
การแยกวิเคราะห์ไฟล์เสียง
การแยกวิเคราะห์ไฟล์วิดีโอ
ฟอร์ม
แคปซ่า
อัตโนมัติ
บันทึกการทำงานในการแยกวิเคราะห์
แคชในการแยกวิเคราะห์
การบันทึกเมื่อการทำงานขาดหาย
การเริ่มทำงานตามกำหนดเวลาในเบราว์เซอร์
การเริ่มทำงานตามกำหนดเวลาบนโฮสติ้ง
การหลีกเลี่ยงการป้องกัน
การหลีกเลี่ยงการป้องกันจากการแยกวิเคราะห์ข้อมูล
การหน่วงเวลาในการแยกวิเคราะห์ข้อมูล
การเปลี่ยน IP ที่บ้าน
การเปลี่ยน IP ในการแยกวิเคราะห์ข้อมูล
คุกกี้ในการแยกวิเคราะห์ข้อมูล
ส่วนหัว HTTP ในการแยกวิเคราะห์ข้อมูล
USERAGENT ในการแยกวิเคราะห์ข้อมูล
เวอร์ชันมือถือของเว็บไซต์
การใช้ API