(Alle kan hjælpe!) - Algoritme til bestemmelse af "hjemmeside type"
Jeg har overvejet det her noget tid, så jeg tænkte at jeg ville spørge her på siden..Jeg har en crawler som kommer ind på en eller anden hjemmeside.. Det kunne være alt fra www.eksperten.dk, www.jakobspersonligeblog.dk eller www.facebook.com. Herefter har jeg behov for at beslutte hvilken type hjemmeside vi er på.. Typer kunne jo f.eks. være:
- Forum
- Blog
- Link katalog
- Social media side
- Nyhedsside
- Enmandsside
Jeg har brainstormet lidt tid, og den bedste løsning i mit hoved lader til at være en eller anden heuristik, baseret på et point system. Kort sagt: Forskellige "trends" giver forskellige points, til de forskellige typer.
Men jeg går lidt i stå... Hvordan detekterer man trends?
- Link kataloger kunne være nemme: Hvis antallet af sider indekseret / udgående links er meget højt, så er sandsynligheden for at vi har et link katalog storts
- Nyhedssider/Blogs: Her er antallet af artikler med en "Dato" ret stort..
Men jeg synes det er svært at finde nok trends til at lave noget smart..
Så mit spørgsmål er:
HVORDAN LØSER MAN DET HER?
*** Høj niveau foreslag såsom "du kunne jo lede efter en reply knap" er også helt fint..! ***
På forhånd, mange tak!