Normalizarea codificării la parsare în PHP
Uneori va trebui să parsați nu site-uri moderne,
ci unele destul de vechi. Pe astfel de site-uri codificarea
este cel mai adesea setată la windows-1251.
Prin urmare, dacă încercați să obțineți texte în limba rusă
de pe acest site, în loc de litere rusești veți vedea
semne de întrebare - acesta este primul semn al unei codificări incorecte.
În acest caz, ar trebui să utilizați funcția
iconv, care recodifică textul din
învechitul windows-1251
în modernul utf-8.
Acest lucru se face în felul următor:
<?php
$str = iconv('windows-1251', 'utf-8', $str);
?>
Descărcați site-ul de la linkul targ1.zip
și desfășurați-l la dumneavoastră. Scrieți un parser,
care va intra pe pagina principală
și va obține conținutul tagurilor title
și main.