Avatar billede MrLund Nybegynder
25. maj 2010 - 07:15 Der er 5 kommentarer og
1 løsning

Automatisk TAQ generator

Jeg er ved at lave et site, som henter utrolig meget information ude fra nettet. Altså artikler fra aviser uge ugeblade.

Jeg regner med at få 500+ ind om dagen.

Alle har en brødtekst, som kort forklarer hvad en given artikel handler om.

Ud fra den, skal jeg have genereret 3-5 taq ord automatisk.
JH

Eks "Panamas regering undskylder for første gang officielt til ofrene for landets militærdiktatur mellem 1968 og 1989."

Her ville jeg gerne have de vigtigste ord ud som taq. Dvs. Panamas, militærdiktatur

Nogen der har en god idé til hvordan mon jeg skipper alle andre ord? Skal jeg til at oprette en omfattende database med ord som den IKKE skal medtage, eller hvordan mon jeg finder frem til de "vigtige" ord?

Kom med en frisk bud :)
Avatar billede The Real Yoda Juniormester
25. maj 2010 - 08:42 #1
Sidder selv i samme problem, dog ikke med tagging, men har også noget hvor jeg automatisk skal udtage vigtige ord.

Min tanke er præcis i samme retning med at lave en database med alt det som den ikke skal tage med.

Jeg har dog tænkt lidt videre og tænker at lave en database med ord og vægt på ord, således at give ord point, og jo flere point de har jo mere prioritet har de fra teksten ..
prioritet/point = 0 = skal ikke vælges
Avatar billede -mundi- Nybegynder
25. maj 2010 - 09:49 #2
En hurtig måde at opbygge en sådan database, kunne være at køre en dags historier igennem manuelt. For hver historie gemmes også ordene som IKKE er valgt som keywords i databasen med lav prioritet.
Ved hver indlæsning af en historie markerer systemet de ord som den mener er vigtige, så man kun skal markere ændringer.
Avatar billede The Real Yoda Juniormester
25. maj 2010 - 10:47 #3
ja jeg vil naturligvis også lave systemet selv generere listen, og så blot skulle give point til hvert enkelt nye ord.. efterhånden
Avatar billede MrLund Nybegynder
27. maj 2010 - 21:21 #4
Kunne man så bygge det op således.
Man kører hvert enkelt ord gennem databasen.
Tjekker om ordet er i databasen, hvis ikke så tilføjer det.
Er ordet i databasen har man også en counter for hvor mange gange ordet findes, og tælles op ad.

Og dvs, ord som har højeste count vil være ord som er irellevante.
Dvs, når man så kører sin tekst igennem, så vælger man ex de 5 ord i teksten, som der findes mindst count på i databasen..

eller hvordan ville i gøre?
Avatar billede The Real Yoda Juniormester
28. maj 2010 - 08:33 #5
Det lyder som en god ide ..

selvom det jo ikke altid vil være dem der optræder færrest gange der er vigtigst..

Et søgeord burde jo gerne være der flere gange.. og dermed ret så væsentligt .. og dermed burde det jo så også være et tag..
Avatar billede MrLund Nybegynder
08. december 2010 - 22:07 #6
lukker
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
Kurser inden for grundlæggende programmering

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester