Avatar billede limes_planum Praktikant
10. marts 2008 - 09:56 Der er 13 kommentarer og
2 løsninger

Hvordan crawler man søgemaskiner?

Vil gerne vide hvordan jeg kan crawle med PHP eller C#, så jeg udnytter andre søgemaskiners databaser til at lave en søgemaskine, der ser ud som min egen.

PS: Skulle være helt lovligt ifølge en IT-ingeniør jeg mødte.
Avatar billede madx Nybegynder
10. marts 2008 - 10:40 #1
Det er som udgangspunkt ikke lovligt. F.eks. har Google klart grænser for hvad de accepterer... og det har de andre nok også. De vil selvfølgelig beskytte deres arbejde.

Var det en ingeniør du mødte på gaden, ovre for at trække et kørekort i automaten ;-)

Så der er nok ikke så mange, der - selvom man godt kan trække indhold - vil fortælle hvordan.

Men hvorfor egl. det hokus-pokus? Hvad vil din søgemaskine kunne gøre bedre end dem der allerede findes.
Avatar billede bufferzone Praktikant
10. marts 2008 - 11:02 #2
Om det er lovligt ellerej ved jeg ikke, men jeg tror ikke deter pragtiskt muligt. Lad os f.eks tage google som eksempel.

- Google er ikke en database, den består at omkring 200 forskellige datacentre med forskellige indhold, tilgængelighed og placering
- Google styre hvad der præsenteres for en "bruger" der f.eks. kunne være en crawler. Du kan altså som udgangspunkt på hvilket datacenter du får resultaterne fra og hvilket subsæt af data du får fra det enkelte center. to forskellige bruger dersøger på det samme ord, kan sagtens få helt foorskellige resultater fra google.
- google ændre hele tiden på algoritmen og bruger de forskellige datacentra til at teste algoritmen med. Dette betyder at du aldrig opnår at alle datacentrene er ene og du kan umuligt vide hvordan du skal crawle de forskellige centre for at have det mest opdaterede billed.
- Som du sikkert kan regne ud at den samlede mængde data ganske voldsom. Her du diskplads og båndbredde nok til at opbevare og hente data hurtigt nok

Som sagt jeg tror ikke det er en opgave der teknisk kan løses med mindre du har ressourcer som f.eks. google, og så kan du jo lige så godt bare købe biksen
Avatar billede madx Nybegynder
10. marts 2008 - 11:21 #3
-> bufferzone,  h a r  set noget baseret på MSN-content
Avatar billede madx Nybegynder
10. marts 2008 - 11:22 #4
nåja, og kender nogen der fifler lidt med det i baghaven - men dog ikke motiveret af samme årsag som limes
Avatar billede limes_planum Praktikant
10. marts 2008 - 11:45 #5
IT-ingeniøren er i gang med at bruge teknologien ved et større, men indtil videre, hemmeligholdt projekt under en større dansk virksomhed.

Men der er her at snakke om brug af (søgemaskine-subgenren) fagregistre som Krak, De Gule Sider og så fremdeles - kan det have noget at sige rettighedsmæssigt? I snakker jo meget om Google?
Avatar billede madx Nybegynder
10. marts 2008 - 12:29 #6
Det er forskellige situationer.

Google crawler indhold, der allerede er til gængeligt. Krak, dgs.dk m.fl. køber indhold og noget har de selv. 

dgs.dk
Hjemmesiden degulesider.dk, dgs.dk, navnebog.dk, dehvidesider.dk (herefter degulesider.dk) og data herfra tilhører ubetinget De Gule Sider A/S. Eneste undtagelser er data til kort, der tilhører Kort & Matrikelstyrelsen , samt data til ruteberegning der tilhører TeleAtlas .

De Gule Siders navn, logo og varemærke tilhører De Gule Sider A/S, og må kun anvendes ved skriftlig aftale med De Gule Sider A/S.

Krak har også fokus
http://www.krak.dk/Information/AnnonceInfo/PaspaaAnnoncehajer.aspx
Avatar billede madx Nybegynder
10. marts 2008 - 12:31 #7
Måske skal I orientere jer lidt nøjere omkring copyright før I kigger på teknologi, der kan noget som måske ikke er lovligt :-)
Avatar billede madx Nybegynder
10. marts 2008 - 12:35 #8
Avatar billede limes_planum Praktikant
10. marts 2008 - 12:39 #9
Ja ja ja... ok - kender ik den IT-ingeniør særligt godt, og hvis projektet er så stort, betaler de jo sikkert også diverse org.'er for at undgå overtrædelser.
Avatar billede limes_planum Praktikant
10. marts 2008 - 12:57 #10
Har selv et halvcomercielt projekt, der måske kan bruge teknologien ved et undermenupunkt - så givet jeg får midler til at købe/bruge diverse data-licenser, kunne det stadig være lækkert at vide hvordan det kan gøres før man evt. implementerer det professionelt? :-)
Avatar billede madx Nybegynder
10. marts 2008 - 13:03 #11
Så er problemet jo også løst, for så får du jo en db med det indhold du køber ;-)

Der findes ingen websites, der nyder at opleve screenscraping, men kig lidt mere her
http://en.wikipedia.org/wiki/Screen_scraping
http://www.oooff.com/

Der er masser af tutorials hist og pist
Avatar billede limes_planum Praktikant
10. marts 2008 - 13:32 #12
Indtil videre tak for dine kommentarer/svar, men vil lige lade spørgsmålet stå i en uges tid for at se, hvad der ellers kommer ind - trods alt kun 3 timer siden det blev oprettet - ska nok lægge en kommentar til dig omkring nyt svar til den tid, hvis ikke andre har svaret.
Avatar billede madx Nybegynder
10. marts 2008 - 13:37 #13
10-4
Avatar billede limes_planum Praktikant
16. marts 2008 - 05:42 #14
Ok madx, der kommer ikke flere svar - jeg havde håbet på lidt mere konkrete og brugbare løsninger da jeg oprettede spørgsmålet med de 120 point - så er det ik meget rimeligt du får 80?
Avatar billede madx Nybegynder
18. marts 2008 - 19:11 #15
Altid til tjeneste :-)
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
IT-kurser om Microsoft 365, sikkerhed, personlig vækst, udvikling, digital markedsføring, grafisk design, SAP og forretningsanalyse.

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester