Jeg vil gerne lave min egen søgemaskine, men hvordan?
Jeg har siddet og bladret i de tidligere stillede spørgsmål og kunne desværre ikke finde et svar. Hvis der er nogen der har et svar eller ved hvor et sådan svar står vil jeg blive mægtig glad.
Jeg har allerede en hjemmeside og et webhotel hvis det kan gøre svaret lettere.
Jeg hører nok til de besværlige. ønsket er ikke at crawle hele nettet, jeg vil bare gerne lære det og gerne vide hvordan, man er vel lidt nysgerrig....
skal jeg forstå det sådan, at alt det google gør, det kan jeg også gøre herhjemmefra, ganske vidst ikke i samme størrelse men alligevel?
Jeg har lært at det altid er en god idé at have en plan.
(1) Det første jeg vel skal vide må være hvor jeg får en overblik over hvilke sider der er på nettet.
(2) hvordan søger jeg i disse informationer
(3) hvilket værktøj (software) skal jeg bruge for at foretage søgningen i (1) og (2).
jeg kører forresten linux - hurra.... alt magt til brugeren.... :)
Det at crawle nettet er _langt_ det mindste problem ved en søgemaskine. At lave søgealgoritmer, cache relevante data, osv - dét er opgaven - og det var dét, der var milliarder værd for 'Google-drengene' ;o)
Jeg er stødt nd i ikke så få crawlers/spiders 'derude' - prøv at søge på Google (nu, da du ikke har din egen søgemaskine) ;D
Det er helt sikkert, at kompileret kode vil være langt mere effektivt (= C++)
Du skal have: - noget kode der kan hente en URL - noget kode der kan parse HTML - noget kode der kan gemme link og tilhørende information - noget kode der kan søge i den gemte information
Hvis du vil kigge nærmere på den slags kode vil jeg foreslå Apache projekterne Lucene, Nutch og Solr. Du kan hente koden og studere den.
Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.