⊗ppPsMtSm 51 of 84 menu

Parsarea pe baza sitemap.xml prin PHP

Deseori, un site web are un fișier de hartă a site-ului sitemap.xml. În acest fișier sunt stocate link-uri către toate paginile site-ului pentru ușurința indexării acestora de către motoarele de căutare (indexarea - este în esență parsarea site-ului de către Yandex și Google). Despre structura acestui fișier puteți citi pe Wikipedia.

Existența unui astfel de fișier ne scutește de la obținerea tuturor adreselor site-ului prin metode complicate. Ne este suficient să obținem conținutul fișierului și să separăm adresele paginilor țintă de cele nețintă.

Pentru a verifica existența acestui fișier pe orice site, pur și simplu în bara de adrese a browserului după numele de domeniu introduceți sitemap.xml și apăsați Enter. Dacă se deschide ceva, atunci puteți încerca această metodologie, iar dacă nu - atunci această metodă nu este aplicabilă acestui site. Uneori calea către harta site-ului nu este standardă, ci este conținută în fișierul robots.txt.

Dacă există un astfel de fișier, îl putem obține ușor în felul următor:

<?php $xml = simplexml_load_file('http://targ.loc/sitemap.xml'); ?>

Și apoi putem parcurge înregistrările cu un ciclu și să separăm URL-urile paginilor țintă de cele nețintă.

Studiați diverse site-uri pe internet. Determinați dacă acestea au o hartă a site-ului.

Luați un site care are o hartă, și parsați de pe el paginile cu conținut.

csuzpluzcro