Parsarea pe baza sitemap.xml prin PHP
Deseori, un site web are un fișier de hartă a site-ului sitemap.xml.
În acest fișier sunt stocate link-uri către toate paginile
site-ului pentru ușurința indexării acestora de către motoarele de căutare
(indexarea - este în esență parsarea
site-ului de către Yandex și Google). Despre structura acestui
fișier puteți citi pe
Wikipedia.
Existența unui astfel de fișier ne scutește de la obținerea tuturor adreselor site-ului prin metode complicate. Ne este suficient să obținem conținutul fișierului și să separăm adresele paginilor țintă de cele nețintă.
Pentru a verifica existența
acestui fișier pe orice site, pur și simplu
în bara de adrese a browserului după
numele de domeniu introduceți sitemap.xml
și apăsați Enter. Dacă se deschide ceva,
atunci puteți încerca această
metodologie, iar dacă nu - atunci această metodă
nu este aplicabilă acestui site. Uneori
calea către harta site-ului nu este standardă,
ci este conținută în fișierul robots.txt.
Dacă există un astfel de fișier, îl putem obține ușor în felul următor:
<?php
$xml = simplexml_load_file('http://targ.loc/sitemap.xml');
?>
Și apoi putem parcurge înregistrările cu un ciclu și să separăm URL-urile paginilor țintă de cele nețintă.
Studiați diverse site-uri pe internet. Determinați dacă acestea au o hartă a site-ului.
Luați un site care are o hartă, și parsați de pe el paginile cu conținut.