Umiddelbart kan jeg se to måder at gøre det på:
En nem, men ineffektiv måde at gøre det på, er ved at læse siden igennem tag for tag og behandle alle attributer og underliggende tags/tekst. Metoden er ineffektiv fordi alle HTML-dokumenter du skal behandle skal valideres og løbes igennem tag for tag. Du kan desuden risikere at få en php-fejl hvis HTML-koden ikke er skrevet rigtigt (alt efter hvilken parser du bruger).
http://www.google.dk/search?q=php+html+parserhttp://www.google.dk/search?q=php+sgml+parserEn meget mere effektiv måde er at bruge regulære udtryk til at matche bestemte mønstre i HTML-koden, og få data ud på den måde. Det kræver imidlertid et godt kendskab til regular expressions!
http://weblogtoolscollection.com/regex/regex.phphttp://www.regular-expressions.info/php.htmlTil at downloade siden til din server bruger du blot file() og læser indholdet på samme måde du læser det fra en fil.
http://dk2.php.net/manual/en/function.file.php