25. maj 2010 - 07:15Der er
5 kommentarer og 1 løsning
Automatisk TAQ generator
Jeg er ved at lave et site, som henter utrolig meget information ude fra nettet. Altså artikler fra aviser uge ugeblade.
Jeg regner med at få 500+ ind om dagen.
Alle har en brødtekst, som kort forklarer hvad en given artikel handler om.
Ud fra den, skal jeg have genereret 3-5 taq ord automatisk. JH
Eks "Panamas regering undskylder for første gang officielt til ofrene for landets militærdiktatur mellem 1968 og 1989."
Her ville jeg gerne have de vigtigste ord ud som taq. Dvs. Panamas, militærdiktatur
Nogen der har en god idé til hvordan mon jeg skipper alle andre ord? Skal jeg til at oprette en omfattende database med ord som den IKKE skal medtage, eller hvordan mon jeg finder frem til de "vigtige" ord?
Teknologi, AI og forretning er i centrum på Computerworlds Cloud og AI Festival i København d. 18. og 19. september. Se hele programmet for den store konference om strategisk brug af Cloud og AI på: www.cloud-festival.dk
Sidder selv i samme problem, dog ikke med tagging, men har også noget hvor jeg automatisk skal udtage vigtige ord.
Min tanke er præcis i samme retning med at lave en database med alt det som den ikke skal tage med.
Jeg har dog tænkt lidt videre og tænker at lave en database med ord og vægt på ord, således at give ord point, og jo flere point de har jo mere prioritet har de fra teksten .. prioritet/point = 0 = skal ikke vælges
En hurtig måde at opbygge en sådan database, kunne være at køre en dags historier igennem manuelt. For hver historie gemmes også ordene som IKKE er valgt som keywords i databasen med lav prioritet. Ved hver indlæsning af en historie markerer systemet de ord som den mener er vigtige, så man kun skal markere ændringer.
Kunne man så bygge det op således. Man kører hvert enkelt ord gennem databasen. Tjekker om ordet er i databasen, hvis ikke så tilføjer det. Er ordet i databasen har man også en counter for hvor mange gange ordet findes, og tælles op ad.
Og dvs, ord som har højeste count vil være ord som er irellevante. Dvs, når man så kører sin tekst igennem, så vælger man ex de 5 ord i teksten, som der findes mindst count på i databasen..
Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.