CIO Tech Eksperten IT-JOB IT-Kurser Events Podcast Søg

Log ind eller opret profil

Du kan også logge ind via nedenstående tjenester

spero Nybegynder

04. januar 2007 - 15:21 Der er 9 kommentarer

Hjælp til programmering af, eller rådgivning omkring crawlere

Hej

Jeg ønsker at lave en crawler som skal hente nogle priser fra nogle forskellige nethandelshjemmesider, men jeg mangler lidt rådgivning omkring produktion af crawlere. Jeg skal vide lidt om hvor meget arbejde der ligger i mit projekt osv.

Det drejer sig om en robot/crawler/spider som indhenter oplysninger flere gange om ugen fra forskellige sider. Det drejer sig om ca. 75.000 db-linier der skal hentes ad gangen.

Hvilken teknologi skal man bruge til dette? Kan man lave det selv? Er det mere rentabelt at købe sig til en eksisterende løsning?

Skriv gerne hvis I er interesseret i at forklare mig mere om dette, jeg kan sagtens betale mig fra rådgivning hvis den rigtige person dukker op.

/Spero

Synes godt om

areon Nybegynder

04. januar 2007 - 15:28 #1

Hej Spero,

Du må gerne sende mig lidt mere information eller evt. ringe og snakke tingene igennem. vi har udviklet og suppertere lige pt. et par Crawl systemer i PHP og Perl med MySql, MSsql databaser til indexering og lagring.

Kontakt mig på "thomassorensenbg" (skype) og vi kan kort vende det der.

mvh thomas
OrangeWeb Ltd. - Bulgaria

Synes godt om

san Nybegynder

04. januar 2007 - 21:29 #2

Du er da også velkommen til at sende mig en mail, så kan vi tage den derfra. Jeg har lavet en del af den slags løsninger. soren@lerskov-andersen.dk.

Med venlig hilsen Søren

Synes godt om

pmn Nybegynder

05. januar 2007 - 21:14 #3

Hej Spero

Jeg kan givetvis hjælpe dig, da jeg har udviklet en løsning der afvikles som en selvstændig .Net application der kan gøre netop dette.

Løsningen er lavet som et proff-of-concept for mig selv, da jeg syntes det var et spændende område. Det betyder derfor også at der ikke er tale om en 100% færdig applikation, dog ret tæt på hvad du skriver om her.

Løsningen består af et generisk framework for at udtrække data og specialiserede robotter der kan crawle dvs. handelssider. Endvidere findes et lag der kan persistere data, dette skal dog yderligere generaliseres, da det i dag skræddersyet mit domæne.
Der er tale en desktop applikation skrevet i C# 2.0.

For yderligere information kan du kontakte mig på peter SNABELA epica.dk

Med venlig hilsen

Peter

Synes godt om

theprofessor Nybegynder

08. januar 2007 - 16:03 #4

en datalog el. lign. kan designe en bot, crawler, eller search engine, men det er ikke let! Desuden er der juridske problemer med at hente data fra andre sites, "deep links", osv. Derfor, skal du spørge en professionel der ved, hvordan google o.lign. virker , glem de autodidakter der tror de kan det hele! Der findes også "public domain" søgemaskiner, som du kan hoste på din site, og de er gratis!(de er dog udviklet af professionelle...)

Synes godt om

spero Nybegynder

08. januar 2007 - 17:14 #5

Hej theprofessor

Tak for svar (også til I andre).

Det er ikke en søgemaskine, men en crawler/bot som skal hente helt specifikke oplysninger fra nogle bestemt angivne sider.

Der er ikke så meget juridisk tovtrækkeri i det, den del er der styr på.

Jeg lader lige spørgsmålet stå lidt og tager snart kontakt til de andre der har henvendt sig.

/Spero

Synes godt om

punnishment Nybegynder

11. januar 2007 - 23:39 #6

For at hente omk. 75.000 db-linier ugentligt har du behov for en stabil løsning der virker hvergang. Derfor er det oplagt at få udviklet et program (applikation).
I dot.net miljøet er det ultra simpelt at "crawle" hjemmesider for bestemte informationer. Det kræver blot en Regular Expression!

Jeg vil derfor anbefale dig at få en dot.net udvikler til at lave din robot, da du vil spare rigtig tid på udviklingen (= penge). Det skal lige siges, at jeg ikke kender til metoderne i de andre programmerings platforme (delphi, c++, osv.)

Synes godt om

pmn Nybegynder

12. januar 2007 - 20:44 #7

Det er korrekt at regular expressions er et fantastisk stærkt værktøj. Den løsning jeg har skrevet ovenfor indeholder også blandt andet XPath og en C# komponent, hvor jeg kan transformere HTML til XML. Det var en sjov opgave at kode, da man ikke kan undgå at blive begejstret for, hvad der egentligt er muligt.

Synes godt om

arne_v Ekspert

16. januar 2007 - 02:16 #8

hverken regex eller xpath er noget specielt for .NET

Synes godt om

trophymanager Nybegynder

23. januar 2007 - 14:04 #9

lavede en løsning af la den type i java på datalogi i sin tid (sidste år). Der var bare vedlagt en tekstfil hvor man angav et par parametre (milepæle) på hvilke tags hvis indhold skulle indekseres. Den kunne indeksere tæt på en million internetsider i døgnet og kørte med en mysql server.

Synes godt om

Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Følg dette spørgsmål

Opret Preview

Se alle it-kurser fra Computerworld Kurser

IT-kurser om Microsoft 365, sikkerhed, personlig vækst, udvikling, digital markedsføring, grafisk design, SAP og forretningsanalyse.

Se alle it-kurser

Flere spørgsmål fra Småopgaver kategorien

Titel	Indlæg	Oprettet	Seneste aktivitet
Hjælp til DC motorstyring Af axel21 i Småopgaver	7	06/03/202522:34	10/03/202518:51
Gode råd til kommende supporter Af SilentSloth i Småopgaver	4	31/12/202423:10	01/01/202515:09
Udregning af vinkel på brædder. Af Peter i Småopgaver	14	11/12/202415:12	13/12/202415:40
Dos program til at rette i .txt filer Af scharff i Småopgaver	10	11/12/202408:52	12/12/202410:45
Beregning af modstand Af Børge Skindhøj i Småopgaver	3	18/11/202414:32	18/11/202417:38

Se alle spørgsmål i kategorien Opret spørgsmål

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester

Alle kategorier på Eksperten

Seneste artiklerRSS