Notifikationer

Markér alle som læst Log ud

webmover Nybegynder

21. februar 2011 - 22:24 Der er 16 kommentarer og
1 løsning

Multi-Threading hvordan?

Hej Eksperter,

Jeg sidder og arbejder på en webcrawler til en søge funktion der skal virke på kryds ad domæner.
jeg har lavet selve den funktion der crawler en side og finder alle interne links (dem der matcher links på de angivet domæner) på en given side.

Men det jeg ikke lige kan finde ud af er hvordan jeg skal crawle de sider jeg finder på den pågældende side?

I øjeblikket kommer jeg alle nye url'er ind i en mssql database. Men hvordan søger jeg for at den køre alle fundet url'er igennem.

Jeg ville i den forbindelse gerne bruge Multi-Threading til at køre crawlingen, men jeg har dog kun snuset lidt til Multi-Threading. Så er der nogle der kan hjælpe?

Synes godt om

arne_v Ekspert

21. februar 2011 - 22:27 #1

Mit forslag:

* lav en queue af links
* put start URL i queue ved opstart
* have N threads som
- tager en URL fra queue
- henter den
- parser den
- putter links i queue

Synes godt om

arne_v Ekspert

21. februar 2011 - 22:28 #2

Ja - og så er det nok en god ide at checke på om en URL allerede er hentet inden den kommer i queue.

Synes godt om

johny Nybegynder

21. februar 2011 - 23:59 #3

Det bliver nok et performance spørgsmål, men umiddelbart ville jeg benytte mig af .NET 4.0 features med Paralelle library, hvor du har linq understøttelse til alt det, så du mere eller mindre helt slipper for at tænke i multithreading, det sørger .NET for i stedet.

Synes godt om

Syska Mester

22. februar 2011 - 00:07 #4

Tror hans net forbindelse dør, før hans CPU lider af overbelastning.
( selvf altså efter hvad han skal med det der bliver hentet )

Men hvis han løbende tilføjer nye ting til listen, så er linq vel ikke helt den optimale løsning ... mht til eventuelt timeout og andre ting ... ellers kan PL også finde ud af det ?

mvh

Synes godt om

johny Nybegynder

22. februar 2011 - 00:07 #5

Hov, var lidt en ufuldstændig sætning jeg fik skrevet. Det med performance, var i forhold til hvor ofte man skulle tjekke op på om man havde gennemløbet et site eller ej, men ja, umiddelbart skal alle resultater tilføjes til en fælles ressourcer der låses på, så der kan tjekkes op på denne om noget allerede er besøgt f.eks.

Synes godt om

arne_v Ekspert

22. februar 2011 - 00:20 #6

PLINQ er vist ikke så relevant her.

Basale Thread's eller traditionel ThreadPool eller PFX Task er alle muligheder.

Synes godt om

johny Nybegynder

22. februar 2011 - 08:09 #7

Hmm, med mindre jeg har misforstået noget, ville det så netop ikke være en fordel med PLINQ, hvis han lavede en klasse der implementerede IEnumerable<string> (hvor string er en url), som havde et dictionary og en stack i maven, hvor der så når en hjemmeside blev besøgt, blev "Try-Added" til dictionary'et, og hvis det lykkedes at adde til denne, tilføjede den internt også til stack'en? Så noget i stil med:

var myUrlEnumerator = new MyUrlEnumerator(initialUrls);

myUrlEnumerator.AsParallel().ForAll(url => {
myUrlEnumerator.AddRange(GetAllLinksOnWebsite(url));
});

Jeg ved ikke om det gav mening lige umiddelbart, men denne metode ville da virke forholdsvis effektivt, uden at skulle tænke alt for meget i trådning?

Synes godt om

arne_v Ekspert

23. februar 2011 - 02:51 #8

Jeg tror ikke at det er godt for PLINQ hvis action modificerer listen!

Synes godt om

johny Nybegynder

23. februar 2011 - 08:24 #9

Er der nu som sådan ikke noget i vejen med. Har bare ikke kunnet komme på en løsning hvor låsning ikke tager for meget af performance til at det kan betale sig.

Synes godt om

Syska Mester

23. februar 2011 - 12:38 #10

Tror ikke jeg ville bekymre mig om låsning, ellers må følgende namespace jo være skrevet til dette formål:
System.Collections.Concurrent

Der er allerde nok delay på at hente alle hjemmesiderne.

Men hvor blev #webmover af ... han kan han bedre forklare hvad han vil have :-)

mvh

Synes godt om

webmover Nybegynder

23. februar 2011 - 13:14 #11

I har helt tabt mig!

Det jeg skal bruge er :

1. jeg har en funktion som hedder Scrawl som via HtmlAgilityPack's
HtmlDocument doc = hw.Load(@url); henter en side og finder alle links på siden og putter deres url'er ind i en database tabel, der efter laver den en søgning i den loaded sides body tekst efter et givent søge term og hvis søge termet er på siden kommes den ind i en anden database tabel. og tilsidst går den ind i den tabel med url'er og checker den url af som den lige har gennemløbet.

Det der er mit problem er hvordan jeg har få det sat op så når Scrawl funktionen er færdig så bliver den kørt igen men hvor den url den får er den første url i database tabelen der endnu ikke er blevet checket som gennemgået.

Der er den del med at genkalde Scrawl funktionen og give den en ny url der er mit problem, samt at jeg gerne ville have at den kunne køre Scrawl funktionen på flere url'er på samme tid.

Men jeg kan ikke gennemskue hvordan det skal hænge sammen for hvis jeg bare kalder den fulde url liste ud fra databasen vil den jo ikke indholde de nye url'er Scrawl finder under vejs?

Synes godt om

webmover Nybegynder

23. februar 2011 - 13:16 #12

hvis I kunne komme ned et kode eks. på hvordan det kan gøres ville det være super! og som sagt jeg er helt ny når det kommer til Multi-Threading!!

Synes godt om

johny Nybegynder

23. februar 2011 - 13:21 #13

Har du nogen tracking i databasen af hvilke sider der er besøgt?

Synes godt om

webmover Nybegynder

23. februar 2011 - 13:35 #14

ja hver gang en side er blevet gennem gået bliver feltet "crawled" for den givende url sat til "true" for at sikre at den ikke crawler de samme sider, og når nye url'er bliver sat ind i databasen så bliver der også tjekket for om de er der i forvejen, før de bliver tilføjer. Så den samme url ikke er på listen flere gange.

Synes godt om

webmover Nybegynder

23. februar 2011 - 13:36 #15

og der vliver også sat et dato stamp på hvor når en give url sidst er blevet crawlet.

Synes godt om

webmover Nybegynder

24. maj 2011 - 11:19 #16

Smid et svar så lukker jeg spg! har desværre ikke fundet løsningen!

Synes godt om

webmover Nybegynder

27. maj 2011 - 08:22 #17

lukker!

Synes godt om

Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Følg dette spørgsmål

Opret Preview

Se alle it-kurser fra Computerworld Kurser

IT-kurser om Microsoft 365, sikkerhed, personlig vækst, udvikling, digital markedsføring, grafisk design, SAP og forretningsanalyse.

Se alle it-kurser

Flere spørgsmål fra C# kategorien

Titel	Indlæg	Oprettet	Seneste aktivitet
Http client med X509Certificate2 Af joki i C#	6	11/09/202515:08	11/09/202518:51
pull request Af OBS i C#	1	30/08/202510:47	03/09/202518:51
Vejledning i god opbygning af program, erklæring af lister og modeller. Af Henrik_B i C#	10	10/04/202519:47	13/04/202502:40
Could not load file or assembly 'Azure.Core, Version=1.44.1.0 Af hlt i C#	7	18/02/202513:35	21/02/202509:41
Serialport lukker ned random Af rix i C#	5	08/02/202510:15	10/02/202510:36

Se alle spørgsmål i kategorien Opret spørgsmål

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester

Alle kategorier på Eksperten

Seneste artiklerRSS

17/10

Test: Lækker lyd med Sennheiser RS 195 - men et par alvorlige mangler trækker ned i vores karakter

17/10

10 vigtige punkter om it-sikkerhed fra Microsoft - har gennemgået hele markedet med en tættekam

17/10

Nørgaard: Taknemmelighed, venlighed og optimisme

17/10

Jobmulighederne for nyuddannede it-folk skrumper ind: AI overtager vigtige opgaver

17/10

Nomineret til Årets CISO 2025: Han står bag DR’s nødplan under kriser og cyberangreb

17/10

Google er klar med løsninger specifikt til Microsofts kunder: "Bryd fri af Microsoft 365’s bindinger, sårbarheder og nedbrud"

17/10

I 45 år har Steen, Kenn og Kenneth holdt liv i deres mainframe: Nu går de alle på pension, og mainframen lukker

17/10

Find dit nye job i efterårsferien - her er 12 friske it-stillinger, som du kan søge netop nu

17/10

Stranger Things nærmer sig sin afslutning: Den sidste kamp om Hawkins slutter med et brag

17/10

Her vil Aarhus Kommune begynde: Disse tre centrale initiativer skal sparke gang i stor frigørelse fra Microsoft

17/10

Windows 10’s død skaber stor fremgang i pc-salget: Her er de mest dominerende spillere på pc-markedet

Vis flere artikler

IT-JOB

Adaptive Business Solutions ApS

Microsoft Dynamics 365 Business Central Udvikler / Konsulent

Styrelsen For It og Læring

Erfaren enterprisearkitekt til tværgående arkitekturenhed

Politi

IT-sikkerhedsspecialist til Rigspolitiet - ISO 27001 og NIS2-implementering

Steno Diabetes Center Copenhagen

Fremadskuende datatalent til digital transformation

TV2

Data Engineer til vores Play Content Recommendations team

Vis flere jobs

Seneste spørgsmål Seneste aktivitet

60 min siden	Gentagen fejlmeddelelse. Af aj9430dk i Windows
I dag 18:00	Min HP MFP176 falder hle tiden af lan-netværket. Kan det sparkes i gang? Af andershl i Printere
I dag 16:26	Fejlmelding på 64 GB Philips USB-drev Af hudsonium i PC
16/1010:01	W11 opdatering stopper Af barth i Windows
15/1019:59	TOMTOM GO Af nu_igen i Andet hardware

White papers

Tænk nyt: Mød et stærkt oursourcing-alternativ
Duklas ApS
Revolutionér kundeoplevelsen med AI og automatisering
Sabio
Er I klar til at tage næste skridt på den digitale retailrejse?
TDC Erhverv
Sikre og skalerbare datacentre med fokus på drift, energi og fremtid
Kemp & Lauritzen

Flere white papers »