Avatar billede lllund Nybegynder
17. september 2012 - 20:55 Der er 11 kommentarer og
1 løsning

Crawling af en liste af hjemmesider

Hej

Jeg har en lang række hjemmesider jeg gerne vil løbe igennem for at finde ord som eksempelvis webshop/indkøbskurv, eller andet.

Jeg har forsøgt mig med nogle forskellige programmer men ikke noget der fungerer ordentligt.

Nogen der kender noget Freeware / "ikke alt for dyrt" til formålet?
Avatar billede kalp Novice
18. september 2012 - 14:45 #1
Jeg har lavet et lille program, som kan det.
Dog skulle jeg bruge noget utrolig simpelt, men du kan da se om det kan bruges.

http://idoshare.com/kalp/

Crawl evt. et link først for at se hvordan det fungere.
F.eks så vil et ord, som "bi" matche "bil, billeder, bilka" osv.

Hvis du kan bruge det næsten, som det er men med en mindre rettelse, så kan jeg gøre det gratis.
Hvis du vil have det tilpasset lidt mere, så gør jeg det gerne imod et mindre beløb.
Avatar billede lllund Nybegynder
18. september 2012 - 19:07 #2
Hej

Og mange tak for forslaget, jeg skal dog løbe mange igennem 100k +, jeg får dog følgende fejl når jeg prøver at køre det :/



************** Exception Text **************
System.IO.FileNotFoundException: Could not load file or assembly 'HtmlAgilityPack, Version=1.4.6.0, Culture=neutral, PublicKeyToken=bd319b19eaf3b43a' or one of its dependencies. Den angivne fil blev ikke fundet.
File name: 'HtmlAgilityPack, Version=1.4.6.0, Culture=neutral, PublicKeyToken=bd319b19eaf3b43a'
  at Crawler.SimpleWordCrawler.button1_Click(Object sender, EventArgs e)
  at System.Windows.Forms.Control.OnClick(EventArgs e)
  at System.Windows.Forms.Button.OnClick(EventArgs e)
  at System.Windows.Forms.Button.OnMouseUp(MouseEventArgs mevent)
  at System.Windows.Forms.Control.WmMouseUp(Message& m, MouseButtons button, Int32 clicks)
  at System.Windows.Forms.Control.WndProc(Message& m)
  at System.Windows.Forms.ButtonBase.WndProc(Message& m)
  at System.Windows.Forms.Button.WndProc(Message& m)
  at System.Windows.Forms.Control.ControlNativeWindow.OnMessage(Message& m)
  at System.Windows.Forms.Control.ControlNativeWindow.WndProc(Message& m)
  at System.Windows.Forms.NativeWindow.Callback(IntPtr hWnd, Int32 msg, IntPtr wparam, IntPtr lparam)

jeg har prøvet at hente : http://htmlagilitypack.codeplex.com/releases/view/90925

men ved ikke helt om det er det er galt og hvor jeg skal pakke filen ud henne.
Avatar billede lllund Nybegynder
18. september 2012 - 19:26 #3
arrhh har fikset det jeg vender tilbage
Avatar billede kalp Novice
18. september 2012 - 22:10 #4
Ahh ja sorry, det er længe siden jeg har benyttet det lille program, så jeg manglede at vedhæfte en dll fil.

100k er selvfølgelig en del, men jeg kan f.eks gøre programmet multitrådet, så det går lidt hurtigere.

Men som jeg sagde så start med at teste på en side og se hvordan det fungerer.

Hvis vi ikke er langt fra hinanden kan jeg måske udvide programmet for dig.
Avatar billede lllund Nybegynder
18. september 2012 - 22:30 #5
Hej Igen

Ja jeg er nok lidt mere ude efter et program med lidt mere funktionalitet, har kigget lidt på, etc : Web Data Extractor
http://www.webextractor.com/ men har meget svært ved at få det til at køre ordentligt.

Jeg er bange for jeg kommer til at mangle nogle ting i dit program, etc eksport af data, men ellers fungerer det jo fint :)


hvis nogle kender nogle andre programmer til den slags her er i meget velkommene til at linke :)
Avatar billede kalp Novice
19. september 2012 - 14:08 #6
http://idoshare.com/kalp/

Lavet lidt eksport mulighed der:)
Avatar billede lllund Nybegynder
20. september 2012 - 07:45 #7
Hej

Ja det ser faktisk rigtigt godt ud,

Vil du evt. have mulighed for at rette 2 små ting til?:

- Jeg kan crawle mere end 2000 emner? (det er vel tekstboxen der ikke kan indeholde mere end xxx antal tegn? evt så man kan hente det fra en tekstifl?

- Eksprotere data som tekst i et format som etc:
"http://1234test.dk";"False"
"http://4321.dk/";"True"
Avatar billede kalp Novice
20. september 2012 - 11:28 #8
Det kan jeg godt..
Hvordan ser tekst filen ud?
En URL på hver linje?

Angående format, så kan jeg godt eksportere TXT udgaven som du nævner:)
Avatar billede lllund Nybegynder
20. september 2012 - 12:13 #9
Hej

Ja det forestillede jeg mig en inputfil som:

http://www.123.dk
http://www.124.dk
http://www.125.dk
...

/Kasper
Avatar billede kalp Novice
20. september 2012 - 21:22 #10
Done.. Du kan hente det på samme URL som før:)

Kør et par sider igennem og se om alt er som det skal være.
Programmet er jo ikke gennemtested, så der er helt sikkert nogle ting:)
Avatar billede lllund Nybegynder
21. september 2012 - 12:23 #11
Hej Kalp

Jeg takker mange gange herfra, det ser ud som om det kører godt og jeg prøver lige at teste lidt viddere med det, vil du ikke sende et svar her.
Avatar billede kalp Novice
21. september 2012 - 12:41 #12
Ingen årsag:)
Du får et svar her
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
IT-kurser om Microsoft 365, sikkerhed, personlig vækst, udvikling, digital markedsføring, grafisk design, SAP og forretningsanalyse.

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester