Notifikationer

Markér alle som læst Log ud

jammerlab Nybegynder

31. august 2010 - 11:52 Der er 5 kommentarer og
1 løsning

Hvilken løsning ville i bruge til en crawler?

Hej derude... jeg har siddet og prøvet at lave en prototype af en crawler... Det fungere sådan set også, men jeg støder ind i problemer når det bliver lidt mere avanceret.

Jeg kan sagtens crawle en hjemmeside for alle links eller alle billeder... men når prøver at få enkelte elementer ud på en side bliver det lidt svært.

Forstil jer en hjemmeside hvor man kan søge på produkter. Jeg har taget et eksempel her på bøger. Det jeg vil havde ud er selvfølgelig billede, titel, forfatter, pris. HTML klumpen ser således ud:

<li>
<b>Historisk sandhed og narrativ sandhed : den psykoanalytiske fortælling</b>
  
<span class="offer">e-bog DOWNLOAD
</span>
<br>
<div style="float: right; position: relative;" class="buttoncontainer">
<a onclick="if( checkCookies() ){Add2ShopCartSpot(document.OrderItemAddFormSpot, '');}else{ alert( ''); } return false;" href="" class="shop">
<span class="basket">Læg i kurv</span>
</a>
</div>
<div>9788773326657, 1900, pdf, Kr. 19,00</div>
<a class="arrow" href="product-10001-10002-1939150-100">Læs mere</a>
</li>

Jeg har prøvet mig frem med preg_match_all men syntes det bliver alt for langhåret da som jeg kan forstå det så skal det regulære udtryk være ret specifikt.

Er der andre måder? Eller hvordan ville i løse sådan en opgave. Ydermere vil der være sidder som kun viser 10 produkter pr. side så der skal også crawles ind over de andre resultater... hvordan ville i gøre det?

- Og er vi enige om at man (hvis man skal ind over flere forskellige hjemmesider) skal havde en "profil" for hver side?

Mvh Ronnie

Synes godt om

jammerlab Nybegynder

31. august 2010 - 11:58 #1

Jeg har taget udgangspunkt i denne tutorial:

http://vision-media.ca/resources/php/create-a-php-web-crawler-or-scraper-5-minutes

og ændret på det regulære udtryk... men som sagt så syntes jeg den bliver langhåret for at hive for eksempel et produkt ud...

Synes godt om

repox Seniormester

31. august 2010 - 14:11 #2

Hvad er årsagen til at du vil bruge crawler til sådan noget, når det nu er lige så nemt at spørge om de har et produktfeed tilgængeligt som du må anvende? Du skal alligevel have tilladelse til at gengive deres indhold.

Synes godt om

jammerlab Nybegynder

31. august 2010 - 14:38 #3

Nu er det mere et proof of concept jeg har gang i, og for at prøve at lave en sådan løsning. Jeg er godt klar over de juridiske aspekter af sagen :)

Jeg vil til enhver tid fortrække produktfeeds, API, adgang til databasen osv... men det kan være der ville komme en aftale på plads med en som ikke kan tilbyde sådan en løsning.

Synes godt om

intenz Novice

01. september 2010 - 15:26 #4

Hvis du vil scrape selve kildekoden er regular expressions vejen frem, og ja, det kan hurtigt blive langhåret.

Det bliver endnu bedre når man endelig er færdig, og ejeren af siden så beslutter at en klasse f.eks. ikke skal hedde 'offer' men i stedet 'offer_download'. Så bryder det hele sammen, og man kan starte igen.

Du bør have en eller anden form for feed, hvis de ikke kan sætte noget ordenligt op, så i det mindste kommasepareret eller andet der er relativit pålideligt og frit for HTML markup.

At scrape kildekoden for den slags er sidste udvej, og bør undgås hvis overhovedet muligt.

Synes godt om

jammerlab Nybegynder

03. september 2010 - 23:13 #5

Ja jeg er helt med på at det er sidste løsning... jeg er ikke skide stærk til regulære udtryk, men har dog rodet lidt med det... har du/i nogle bud på hvordan sådan et udtryk kunne se ud for at isolere informationerne fra den stump HTML jeg har smidt i toppen?

Synes godt om

jammerlab Nybegynder

26. oktober 2010 - 09:25 #6

Intet nyt under solen...

Synes godt om

Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Følg dette spørgsmål

Opret Preview

Webudvikling kurser

Vi tilbyder markedets bedste kurser inden for webudvikling

Se alle Webudvikling kurser

Flere spørgsmål fra PHP kategorien

Titel	Indlæg	Oprettet	Seneste aktivitet
Bruge PHP til at hente hjemmeside med fsockopen Af Strawberry i PHP	18	29/01/202613:08	02/02/202610:29
Hjemmeside der virker både på mobil og computer Af Strawberry i PHP	6	25/01/202620:06	30/01/202618:53
Hvordan får jeg reCAPTCHA på min hjemmeside? Af Strawberry i PHP	1	20/01/202621:11	23/01/202618:04
MS Graph vis kalenderaftaler Af dane022 i PHP	0	06/11/202508:43	-
Hente data fra DEVICE via websocket Af nemlig i PHP	6	25/06/202512:37	25/06/202519:17

Se alle spørgsmål i kategorien Opret spørgsmål

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester

Alle kategorier på Eksperten

Seneste artiklerRSS

15:51

Test: Denne robot-støvsuger er kompakt og kapabel – fås lige nu til kuppris

15:25

En af it-branchens største superstjerner fandt sin inspiration i København: Nu kommer han til byen igen

14:57

Kun tre uger efter patch: Nu advarer Cisco om at kritisk sårbarhed aktivt bliver udnyttet

14:30

Nørgaard: Hvorfor i alverden skal vi styre noget, der ikke kan styres?

03/07

Dette firma skal stå for kæmpe ERP-projekt i Region Syddanmark: Tegner kontrakt til 300 millioner kroner

03/07

Amazon lancerer ny stor-konkurrent til Elon Musk og Starlink

03/07

Efter hård kritik: Nu vil Statens It rette op på sine sikkerheds-problemer - her er planen

03/07

19 midtjyske kommuner har valgt at indgå i aktieselskab om fælles it-drift: Her er de væsentligste problemstillinger

03/07

Betaler prisen for opkøb: Unit IT lander endnu et underskud – sådan vil ny topchef vende skuden

03/07

Derfor ejer verdens mest værdifulde virksomheder overraskende lidt

03/07

Microsoft i kæmpe sats: Åbner helt ny milliardvirksomhed med tusindvis af it-specialister

Vis flere artikler

IT-JOB

Forsvarsministeriets Materiel- og Indkøbsstyrelse

Souschef til Informations- og kommunikationsteknologi i Cyberdivisionen Hvidovre

Styrelsen For It og Læring

Erfaren enterprise-arkitekt til tværgående arkitekturenhed

Everllence

Senior Software Engineer - R&D

ABENA

IT Administrator

Forsvarsministeriets Materiel- og Indkøbsstyrelse

Netværksspecialist med indsigt i C2 systemer til opbygningen af Forsvarets anti-drone-program

Vis flere jobs

Seneste spørgsmål Seneste aktivitet

I dag 12:44	Lenovo ThinkPad X1 Yoga Af mort1 i PC
I går 10:40	Dagens vits fra AI Af nu_igen i Andet software
I går 10:28	Stifinder gemmer de sidste 20 åbnede dokumenter, nu er de pludselig væk. Af Uvanga i Windows
01/0715:18	Min PC kan nu ikke se den ekstra skærm Af KurtG i Windows
30/0614:48	Beholde vigtige cookies i Firefox (Slette cookies, som man ikke bruger) Af Ikke-ekspert i Browsere

White papers

Undgå at printeren bliver svageste led i sikkerheden
Konica Minolta
Dine data ligger i Europa – men hvem har reelt kontrollen?
Keepit
De spørgsmål 200+ danske virksomheder stiller om print – samlet i én guide
Konica Minolta
Samarbejde mellem AI og mennesker styrker sikkerheden
Konica Minolta

Flere white papers »