I bund og grund gør en søgemaskine sådan:
#1 Indlæs en adresse, f.eks.
http://www.w3.org/#2 Undersøg denne side for <a href="links">links</a> og anden information der måtte være interessant
#3 Gem denne information i en database eller andet smart system
#4 Gå nu igennem listen med de funde adresser og start fra trin 1 med den nye adresse
Man kan så have forskellige begrænsninger på, for ovenstående model vil jo bare søge igennem de første links uden at komme videre med mindre der opstår en blindgyde. Da jeg lavede min med C# og MS SQL SERVER satte jeg den til at gå 4 links dybt og det brugte den så imellem 20 minutter til 2,5 timer afhængigt af indhold osv.
Men jeg stoppede så med at udvikle videre på den efter jeg løb ind i 2 problemer:
1: 350.000 unikke links på 3 timer fylder ca. 50 mb, det inkluderer sidens titel og diverse andre metatags samt anden information som jeg gemte.
2: Jeg ville jo gerne kunne søge i disse resultater, men når man søger skal man angive nogle kriterer, og jeg ville gerne rangere resultaterne efter forekomst vha. min egen lille fikse formel som jeg selv fandt på(ligegyldig for dette svar). Men mit problem var, at dette tog ca. 1 time pr. 42000 links hvorfor jeg så opgav(ja, det kunne sikkert gøres smartere, men efter 8 koderevisioner på 5 dage gad jeg bare ikke mere ;).
men jeg vender uden tvivl tilbage til det for det var utroligt spændende at arbejde med.
Men hvis du kan et eller andet programmeringssprog, så kan du sagtens anvende min lille firtrins-guide til at eksperimentere selv.
MVH og god søgning
Casper Steinmann