16. januar 2014 - 11:01Der er
9 kommentarer og 1 løsning
Script der opsnapper falske indlæg
Jeg er igang med at lave et script som skal fange falske indlæg. Jeg har nogle parametre jeg indsamler, som skal bruges til at vurderer om der er tale om et falsk eller ægte indlæg.
Nu ved jeg ikke hvordan det gøres bedst, men jeg havde forestillet mig at man vurderede vær parameter, og gav det en karakter mellem 1 - 2 (fx 0.2) og til sidst lagde man alle disse karakter sammen, og hvis det ligger over fx. 2 er der tale om et indlæg man skal være opmærksom på.
De parametre jeg har at kigge efter er: Ip adresse User agent Antal facebook venner Hvilket land ip-adressen er fra Dato+tid
Scriptet skal på en eller anden måde sammen ligne ip-adressen og useragent med de andre indlæg for at vurderer om der er flere indlæg som bliver skrevet af samme person, men fra forskellige brugere. Sammen med antal facebook venner og hvilket land de kommer fra vurderer om den er ægte eller ej.
Jeg har disse oplysninger samlet i en tabel Dato, IP-adresse, tekst, userid, useragent
Og en anden tabel som indeholder deres login oplysninger, sammen med antal facebook venner.
Jeg vil selvfølgelig gerne se en løsning til hvordan et script kan bygges op, så det bedst muligt udføre opgaven. :)
Synes godt om
Slettet bruger
16. januar 2014 - 12:40#3
Hmmm, man kan jo nemt lave et script til det, det svære er jo at finde ud af hvad man skal se på og sammenligne med. har du noget data på en typisk falsk bruger? Det er svært at lave et script der skal vurdere om et indlæg er spam eller ej hvis man ikke har nogle data man kan sammenligne med tænker jeg.
Ja, jeg har noget data, dog det eneste der skiller sig ud er selvfølgelig at deres ip-adresse oftes er udenlandsk og at de bruger samme user agent, og har få facebook venner.
Lige nu er mit script blot nogle if sætning, hvor den tæller hvor mange gange user agent, ip m.m findes i den enkelte tabel, jo flere gange den findes jo højere karakter.
Jeg synes dog bare at det er en kringlet måde at gøre det på, og håber at der findes en bedre måde at tjekke, og måske også at tjekke på andre måder end med if sætninger som min.
Du kan starte med at forklare hvordan du bestemmer at det er et falsk indlæg - hvilke kriterier skal være opfyldt og endeligt hvordan du bruge din funktionalitet.
Hvis en IP-adresse er fra udlandet går jeg ud fra som udgangspunkt at indlægget er falsk eftersom at siden udelukkende er dansk - dog kan de selvfølgelig ske at en danske sidder i udlandet og skrive indlægget, derfor skal det også underbygges med andre kriterier.
Mht user agent bruger dem som skrive falske e-mails ofte samme useragent med forskellig ip-adresse. Så hvis man kan se et mønster i at der bliver skrevet meget fra en bestemt user agent ofte fra forskellige brugere bliver den enkelte user agent også anset som værende en grund til at indlægget kan være falsk.
Derudover er der også Facebook venner hvor jeg går ud fra at hvis en person har under 50 venner er personen "mistænkelig" hvorimod jo flere venner man har jo mindre mistænkelig er man.
Så det er noget med jo flere forskellige brugere der bruger samme user agent jo mere mistænksom bliver den.
Jo færre facebookvenner man har jo mere mistænksom er man. Jo flere der bruger samme ip-adresse, eller ip-adressen ikke er dansk jo mere mistænksom er man.
Så det handler altså om at tjekke hvor ofte noget fremgår, og ud fra det give en karakter. Mange ens ip-adresse = høj karakter Mange ens user-agents = høj karakter Få facebook venner = høj karakter
Med falsk mener jeg selvfølgelig at der er tale om et indlæg som enten er computer skrevet eller er skrevet uden at have tilknyttelse til selve emnet hvor indlægget er skrevet men at der blot skrives som spam.
Det vil ikke løse det at implementerer captcha da det oftes ikke er en computer som skriver indlægget.
Meningen er også - i det det er et skoleprojekt at programmere det hele fra bunden dag. Jeg søger blot den nemmeste måde at bygget et script op der tjekker og giver karakter ud fra førnævnte parametre :)
Synes godt om
Slettet bruger
21. januar 2014 - 08:32#10
Man kan jo lave en masse checks med for løkker, switches eller en bunke if else som så tildeler forskellige point, men den bedste løsning ville nu være at lave en algoritme der beregner sandsynligheden, så jeg ville tage en tur på biblioteket og begynde at læse :)
Synes godt om
Ny brugerNybegynder
Din løsning...
Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.