Avatar billede xpresand Nybegynder
16. januar 2014 - 11:01 Der er 9 kommentarer og
1 løsning

Script der opsnapper falske indlæg

Jeg er igang med at lave et script som skal fange falske indlæg. Jeg har nogle parametre jeg indsamler, som skal bruges til at vurderer om der er tale om et falsk eller ægte indlæg.

Nu ved jeg ikke hvordan det gøres bedst, men jeg havde forestillet mig at man vurderede vær parameter, og gav det en karakter mellem 1 - 2 (fx 0.2) og til sidst lagde man alle disse karakter sammen, og hvis det ligger over fx. 2 er der tale om et indlæg man skal være opmærksom på.

De parametre jeg har at kigge efter er:
Ip adresse
User agent
Antal facebook venner
Hvilket land ip-adressen er fra
Dato+tid

Scriptet skal på en eller anden måde sammen ligne ip-adressen og useragent med de andre indlæg for at vurderer om der er flere indlæg som bliver skrevet af samme person, men fra forskellige brugere. Sammen med antal facebook venner og hvilket land de kommer fra vurderer om den er ægte eller ej.

Jeg har disse oplysninger samlet i en tabel
Dato, IP-adresse, tekst, userid, useragent

Og en anden tabel som indeholder deres login oplysninger, sammen med antal facebook venner.
Avatar billede Slettet bruger
16. januar 2014 - 11:08 #1
Hvad vil du gerne have hjælp til/svar på, der er ikke rigtig noget spørgsmål i dit indlæg
Avatar billede xpresand Nybegynder
16. januar 2014 - 11:53 #2
Min fejl.

Jeg vil selvfølgelig gerne se en løsning til hvordan et script kan bygges op, så det bedst muligt udføre opgaven. :)
Avatar billede Slettet bruger
16. januar 2014 - 12:40 #3
Hmmm, man kan jo nemt lave et script til det, det svære er jo at finde ud af hvad man skal se på og sammenligne med. har du noget data på en typisk falsk bruger? Det er svært at lave et script der skal vurdere om et indlæg er spam eller ej hvis man ikke har nogle data man kan sammenligne med tænker jeg.
Avatar billede xpresand Nybegynder
16. januar 2014 - 13:19 #4
Ja, jeg har noget data, dog det eneste der skiller sig ud er selvfølgelig at deres ip-adresse oftes er udenlandsk og at de bruger samme user agent, og har få facebook venner.

Lige nu er mit script blot nogle if sætning, hvor den tæller hvor mange gange user agent, ip m.m findes i den enkelte tabel, jo flere gange den findes jo højere karakter.

Eksempelvis
           
if($antal_ip > 1) {
  $scor_ip = 1;
}
else {
  $scor_ip = 0;   
}

Jeg synes dog bare at det er en kringlet måde at gøre det på, og håber at der findes en bedre måde at tjekke, og måske også at tjekke på andre måder end med if sætninger som min.
Avatar billede repox Seniormester
16. januar 2014 - 16:00 #5
Du kan starte med at forklare hvordan du bestemmer at det er et falsk indlæg - hvilke kriterier skal være opfyldt og endeligt hvordan du bruge din funktionalitet.
Avatar billede xpresand Nybegynder
16. januar 2014 - 16:45 #6
Hvis en IP-adresse er fra udlandet går jeg ud fra som udgangspunkt at indlægget er falsk eftersom at siden udelukkende er dansk - dog kan de selvfølgelig ske at en danske sidder i udlandet og skrive indlægget, derfor skal det også underbygges med andre kriterier.

Mht user agent bruger dem som skrive falske e-mails ofte samme useragent med forskellig ip-adresse. Så hvis man kan se et mønster i at der bliver skrevet meget fra en bestemt user agent ofte fra forskellige brugere bliver den enkelte user agent også anset som værende en grund til at indlægget kan være falsk.

Derudover er der også Facebook venner hvor jeg går ud fra at hvis en person har under 50 venner er personen "mistænkelig" hvorimod jo flere venner man har jo mindre mistænkelig er man.

Så det er noget med jo flere forskellige brugere der bruger samme user agent jo mere mistænksom bliver den.

Jo færre facebookvenner man har jo mere mistænksom er man.
Jo flere der bruger samme ip-adresse, eller ip-adressen ikke er dansk jo mere mistænksom er man.

Så det handler altså om at tjekke hvor ofte noget fremgår, og ud fra det give en karakter.
Mange ens ip-adresse = høj karakter
Mange ens user-agents = høj karakter
Få facebook venner  = høj karakter

Høj karakter = mistanke om falsk indlæg.


Er det nok svar?
Avatar billede xpresand Nybegynder
16. januar 2014 - 23:23 #7
Med falsk mener jeg selvfølgelig at der er tale om et indlæg som enten er computer skrevet eller er skrevet uden at have tilknyttelse til selve emnet hvor indlægget er skrevet men at der blot skrives som spam.
Avatar billede repox Seniormester
17. januar 2014 - 00:07 #8
Var det så ikke nemmere at implementere captcha eller honeypot?
Avatar billede xpresand Nybegynder
17. januar 2014 - 13:00 #9
Det vil ikke løse det at implementerer captcha da det oftes ikke er en computer som skriver indlægget.

Meningen er også - i det det er et skoleprojekt at programmere det hele fra bunden dag. Jeg søger blot den nemmeste måde at bygget et script op der tjekker og giver karakter ud fra førnævnte parametre :)
Avatar billede Slettet bruger
21. januar 2014 - 08:32 #10
Man kan jo lave en masse checks med for løkker, switches eller en bunke if else som så tildeler forskellige point, men den bedste løsning ville nu være at lave en algoritme der beregner sandsynligheden, så jeg ville tage en tur på biblioteket og begynde at læse :)
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
Vi tilbyder markedets bedste kurser inden for webudvikling

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester