Hjælp til programmering af, eller rådgivning omkring crawlere
Hej
Jeg ønsker at lave en crawler som skal hente nogle priser fra nogle forskellige nethandelshjemmesider, men jeg mangler lidt rådgivning omkring produktion af crawlere. Jeg skal vide lidt om hvor meget arbejde der ligger i mit projekt osv.
Det drejer sig om en robot/crawler/spider som indhenter oplysninger flere gange om ugen fra forskellige sider. Det drejer sig om ca. 75.000 db-linier der skal hentes ad gangen.
Hvilken teknologi skal man bruge til dette? Kan man lave det selv? Er det mere rentabelt at købe sig til en eksisterende løsning?
Skriv gerne hvis I er interesseret i at forklare mig mere om dette, jeg kan sagtens betale mig fra rådgivning hvis den rigtige person dukker op.
Du må gerne sende mig lidt mere information eller evt. ringe og snakke tingene igennem. vi har udviklet og suppertere lige pt. et par Crawl systemer i PHP og Perl med MySql, MSsql databaser til indexering og lagring.
Kontakt mig på "thomassorensenbg" (skype) og vi kan kort vende det der.
Jeg kan givetvis hjælpe dig, da jeg har udviklet en løsning der afvikles som en selvstændig .Net application der kan gøre netop dette.
Løsningen er lavet som et proff-of-concept for mig selv, da jeg syntes det var et spændende område. Det betyder derfor også at der ikke er tale om en 100% færdig applikation, dog ret tæt på hvad du skriver om her.
Løsningen består af et generisk framework for at udtrække data og specialiserede robotter der kan crawle dvs. handelssider. Endvidere findes et lag der kan persistere data, dette skal dog yderligere generaliseres, da det i dag skræddersyet mit domæne. Der er tale en desktop applikation skrevet i C# 2.0.
For yderligere information kan du kontakte mig på peter SNABELA epica.dk
en datalog el. lign. kan designe en bot, crawler, eller search engine, men det er ikke let! Desuden er der juridske problemer med at hente data fra andre sites, "deep links", osv. Derfor, skal du spørge en professionel der ved, hvordan google o.lign. virker , glem de autodidakter der tror de kan det hele! Der findes også "public domain" søgemaskiner, som du kan hoste på din site, og de er gratis!(de er dog udviklet af professionelle...)
For at hente omk. 75.000 db-linier ugentligt har du behov for en stabil løsning der virker hvergang. Derfor er det oplagt at få udviklet et program (applikation). I dot.net miljøet er det ultra simpelt at "crawle" hjemmesider for bestemte informationer. Det kræver blot en Regular Expression!
Jeg vil derfor anbefale dig at få en dot.net udvikler til at lave din robot, da du vil spare rigtig tid på udviklingen (= penge). Det skal lige siges, at jeg ikke kender til metoderne i de andre programmerings platforme (delphi, c++, osv.)
Det er korrekt at regular expressions er et fantastisk stærkt værktøj. Den løsning jeg har skrevet ovenfor indeholder også blandt andet XPath og en C# komponent, hvor jeg kan transformere HTML til XML. Det var en sjov opgave at kode, da man ikke kan undgå at blive begejstret for, hvad der egentligt er muligt.
lavede en løsning af la den type i java på datalogi i sin tid (sidste år). Der var bare vedlagt en tekstfil hvor man angav et par parametre (milepæle) på hvilke tags hvis indhold skulle indekseres. Den kunne indeksere tæt på en million internetsider i døgnet og kørte med en mysql server.
Synes godt om
Ny brugerNybegynder
Din løsning...
Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.