Avatar billede spero Nybegynder
04. januar 2007 - 15:21 Der er 9 kommentarer

Hjælp til programmering af, eller rådgivning omkring crawlere

Hej

Jeg ønsker at lave en crawler som skal hente nogle priser fra nogle forskellige nethandelshjemmesider, men jeg mangler lidt rådgivning omkring produktion af crawlere. Jeg skal vide lidt om hvor meget arbejde der ligger i mit projekt osv.

Det drejer sig om en robot/crawler/spider som indhenter oplysninger flere gange om ugen fra forskellige sider. Det drejer sig om ca. 75.000 db-linier der skal hentes ad gangen.

Hvilken teknologi skal man bruge til dette? Kan man lave det selv? Er det mere rentabelt at købe sig til en eksisterende løsning?

Skriv gerne hvis I er interesseret i at forklare mig mere om dette, jeg kan sagtens betale mig fra rådgivning hvis den rigtige person dukker op.

/Spero
Avatar billede areon Nybegynder
04. januar 2007 - 15:28 #1
Hej Spero,

Du må gerne sende mig lidt mere information eller evt. ringe og snakke tingene igennem. vi har udviklet og suppertere lige pt. et par Crawl systemer i PHP og Perl med MySql, MSsql databaser til indexering og lagring.

Kontakt mig på "thomassorensenbg" (skype) og vi kan kort vende det der.

mvh thomas
OrangeWeb Ltd. - Bulgaria
Avatar billede san Nybegynder
04. januar 2007 - 21:29 #2
Du er da også velkommen til at sende mig en mail, så kan vi tage den derfra. Jeg har lavet en del af den slags løsninger. soren@lerskov-andersen.dk.

Med venlig hilsen Søren
Avatar billede pmn Nybegynder
05. januar 2007 - 21:14 #3
Hej Spero

Jeg kan givetvis hjælpe dig, da jeg har udviklet en løsning der afvikles som en selvstændig .Net application der kan gøre netop dette.

Løsningen er lavet som et proff-of-concept for mig selv, da jeg syntes det var et spændende område. Det betyder derfor også at der ikke er tale om en 100% færdig applikation, dog ret tæt på hvad du skriver om her.

Løsningen består af et generisk framework for at udtrække data og specialiserede robotter der kan crawle dvs. handelssider. Endvidere findes et lag der kan persistere data, dette skal dog yderligere generaliseres, da det i dag skræddersyet mit domæne.
Der er tale en desktop applikation skrevet i C# 2.0.

For yderligere information kan du kontakte mig på peter SNABELA epica.dk


Med venlig hilsen

Peter
Avatar billede theprofessor Nybegynder
08. januar 2007 - 16:03 #4
en datalog el. lign. kan designe en bot, crawler, eller search engine, men det er ikke let!  Desuden er der juridske problemer med at hente data fra andre sites, "deep links", osv.  Derfor, skal du spørge en professionel der ved, hvordan google o.lign. virker , glem de autodidakter der tror de kan det hele! Der findes også "public domain" søgemaskiner, som du kan hoste på din site, og de er gratis!(de er dog udviklet af professionelle...)
Avatar billede spero Nybegynder
08. januar 2007 - 17:14 #5
Hej theprofessor

Tak for svar (også til I andre).

Det er ikke en søgemaskine, men en crawler/bot som skal hente helt specifikke oplysninger fra nogle bestemt angivne sider.

Der er ikke så meget juridisk tovtrækkeri i det, den del er der styr på.

Jeg lader lige spørgsmålet stå lidt og tager snart kontakt til de andre der har henvendt sig.

/Spero
Avatar billede punnishment Nybegynder
11. januar 2007 - 23:39 #6
For at hente omk. 75.000 db-linier ugentligt har du behov for en stabil løsning der virker hvergang. Derfor er det oplagt at få udviklet et program (applikation).
I dot.net miljøet er det ultra simpelt at "crawle" hjemmesider for bestemte informationer. Det kræver blot en Regular Expression!

Jeg vil derfor anbefale dig at få en dot.net udvikler til at lave din robot, da du vil spare rigtig tid på udviklingen (= penge). Det skal lige siges, at jeg ikke kender til metoderne i de andre programmerings platforme (delphi, c++, osv.)
Avatar billede pmn Nybegynder
12. januar 2007 - 20:44 #7
Det er korrekt at regular expressions er et fantastisk stærkt værktøj. Den løsning jeg har skrevet ovenfor indeholder også blandt andet XPath og en C# komponent, hvor jeg kan transformere HTML til XML. Det var en sjov opgave at kode, da man ikke kan undgå at blive begejstret for, hvad der egentligt er muligt.
Avatar billede arne_v Ekspert
16. januar 2007 - 02:16 #8
hverken regex eller xpath er noget specielt for .NET
Avatar billede trophymanager Nybegynder
23. januar 2007 - 14:04 #9
lavede en løsning af la den type i java på datalogi i sin tid (sidste år). Der var bare vedlagt en tekstfil hvor man angav et par parametre (milepæle) på hvilke tags hvis indhold skulle indekseres. Den kunne indeksere tæt på en million internetsider i døgnet og kørte med en  mysql server.
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
IT-kurser om Microsoft 365, sikkerhed, personlig vækst, udvikling, digital markedsføring, grafisk design, SAP og forretningsanalyse.

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester