Notifikationer

Markér alle som læst Log ud

msdb Nybegynder

14. december 2010 - 15:00 Der er 14 kommentarer og
1 løsning

Python, gem linie nr ved indeksering

Jeg er igang med at lave en søgemaskine som bla. skal kunne indeksere nogle tekster. Programmet er næsten færdig, jeg vil dog gerne tilføje linienumre til søgeoutputtet, dvs. når der søges på et ord skal output ikke blot være de relevante tekster og antal af reultater, men også hvilke linienumre disse fremkommer på.
Jeg indekserer teksterne med denne funktion:

import re
stop = open('stopord.txt').read()
re_split = re.compile('[ .,;:!?*)(/\n\r\t-]+')
stopord = re_split.split(stop)

def nuke(text):
f = open(text).read()
words = list(re_split.split(f))
t = [w.lower() for w in words if w != ',' and w != ':' and w != '(' and w != ')' and w != '-' and w.isdigit() == False]
b = [w for w in t if w not in stopord]
return b

Jeg tænker at løsningen ligger i at lave om på re_split og muligvis tilføje en løkke, som tildeler indekstermerne en værdi, ved hvert linieskift og smider resultatet ind i en dictionary.

Er dette den optimale løsning, hvis overhovedet mulig?

Synes godt om

arne_v Ekspert

15. december 2010 - 03:29 #1

Logikken skal nok ændres en hel del.

Hvis du læser en linie ad gangen, inkrementerer en tæller for hver linie og gemmer en struktur af tæller plus ord i en liste, så burde du have det.

Synes godt om

msdb Nybegynder

15. december 2010 - 04:02 #2

Den logik kan jeg sagtens følge, men udover tælleren kan jeg ikke greje en metode til at gemme tæller og ord. Jeg misforstår måske din mening. Kan du uddybe?

Synes godt om

arne_v Ekspert

15. december 2010 - 04:12 #3

Til inspiration:

lst = []
lst.append( { 'line':1, 'word':'A' } )
lst.append( { 'line':2, 'word':'BB' } )
lst.append( { 'line':3, 'word':'CCC' } )
for itm in lst:
print itm['word'],'er i linie',itm['line']

Synes godt om

msdb Nybegynder

15. december 2010 - 13:51 #4

Dette returnerer en liste af linienumre:

#t1 er teksten
lst = []
bla = []
lines = 0
l = 'line'
w = 'words'
for line in t1.splitlines():
lines += 1
lst.append({l:lines, w:line})
for itm in lst:
if 'agurk' in itm['words']:
bla.append(itm['line'])
print itm['line']
print bla

... men koden kan ikke findet ordet, hvis det f.eks. starter med stort bogstav, hmm, hvad mangler jeg?

Synes godt om

arne_v Ekspert

16. december 2010 - 02:34 #5

Jeg forstår ikke helt hvilke keys du bruger. Bruger du l og w eller words og line??

Synes godt om

msdb Nybegynder

16. december 2010 - 03:01 #6

Hvad mener du? Vi kan hurtigt blive enige om at det er en forvirrende opskrift jeg hat bikset sammen, men den virker.
Hvis jeg f.eks. printer lst, så returnerer den næsten det som du foreslog, dvs. en dictionaey med linjenummer sammen med ordene i den linje. Det ser således ud for en tekst på 3 linjer:
[{'line': 1, 'words': 'Agurk'}, {'line': 2, 'words': 'Cucumis Sativus/Anguria'}, {'line': 3, 'words': 'Gherkin, small cucumber'}]

Synes godt om

arne_v Ekspert

16. december 2010 - 03:07 #7

Ah - jeg missede at du brugte varible som keys. Så passer det jo fint sammen.

D.v.s. at dit problem er kun at lave en case insensitiv sammenligning?

Synes godt om

arne_v Ekspert

16. december 2010 - 03:09 #8

Jeg tror at du bliver nødt til splitte linien i ord og så sammenligne case insensitivt ved at kalde .lower() på begge.

Synes godt om

msdb Nybegynder

16. december 2010 - 03:35 #9

Nu har jeg forsøgt med den regex-funktion som du hjalp mig med i en tidl. tråd, nemlig
re_split = re.compile('[ .,;:!?*)(/\n\r\t-]+')
for-løkke nr. 2 smider hvert ord enkeltvis ind under linjenr. men når jeg indsætter h i anden løkke får jeg en fejl. Hvordan kan det være?

for line in t1.splitlines():
lines += 1
g = re_split.split(line)
h = [x.lower for x in g]
for wd in g:
lst.append({l:lines, w:wd})

Synes godt om

msdb Nybegynder

16. december 2010 - 03:49 #10

Never mind, jeg glemte ()

Synes godt om

arne_v Ekspert

16. december 2010 - 03:51 #11

Ved nærmere eftertanke behøver du ikke engang splitte i ord.

if 'agurk' in itm['words']:

->

if 'agurk'.lower() in itm['words'].lower():

Synes godt om

msdb Nybegynder

16. december 2010 - 03:54 #12

Output ser nu sådan ud:
[{'line': 1, 'words': 'agurk'}, {'line': 2, 'words': 'cucumis'}, {'line': 2, 'words': 'sativus'}, {'line': 2, 'words': 'anguria'}, {'line': 3, 'words': 'gherkin'}].. osv
Nu er den i stand til at finde 'agurk' i første linje, men ikke hvis det f.eks. staves 'agurken' eller lign. variation. Burde den ikke kunne finde ud af det når jeg spørger:
if 'agurk' in itm['words']:
?

Synes godt om

arne_v Ekspert

16. december 2010 - 03:58 #13

print 'agurk' in 'agurk'
print 'agurk' in 'agurken'
print 'agurk' in 'Agurk'
print 'agurk' in 'Agurken'
print 'agurk' in 'Agurk'.lower()
print 'agurk' in 'Agurken'.lower()

virker helt som forventet her:

True
True
False
False
True
True

Synes godt om

msdb Nybegynder

16. december 2010 - 04:07 #14

AHHhhh, det er mig der ikke tænker. 'Agurk' forekommer 14 gange i teksten og 13 af dem står i samme linje, det tænkte jeg ikke lige over da jeg bedømte mit output. Jeg har nu testet et andet ord og kan konkludere at det virker perfekt.
Endnu engang tak for din hjælp :)

Synes godt om

arne_v Ekspert

16. december 2010 - 04:13 #15

så smider jeg et svar

Synes godt om

Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Følg dette spørgsmål

Opret Preview

Programmeringssprog kurser

Kurser inden for grundlæggende programmering

Se alle Programmeringssprog kurser

Flere spørgsmål fra Andet programmering kategorien

Titel	Indlæg	Oprettet	Seneste aktivitet
Hjælp til Api.asmx Af lurup i Andet programmering	1	17/03/202609:27	17/03/202614:12
burgermenu til hjemmeside - hjælp! Af SabrinaL i Andet programmering	2	12/11/202514:10	02/12/202520:42
Hjælp til programmering af website Af hamdenlange i Andet programmering	16	17/08/202522:26	19/08/202515:53
Kan man registrere hvis folk lukker en side ned Af KurtG i Andet programmering	8	24/07/202513:06	28/07/202517:03
hta - powershell eller lign. Af tjodense i Andet programmering	2	28/04/202515:22	29/04/202512:00

Se alle spørgsmål i kategorien Opret spørgsmål

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester

Alle kategorier på Eksperten

Seneste artiklerRSS