Søge i flere forskellige filformater
HejJeg skal lave et system hvor det skal være muligt at søge i HTML, TXT, EMAIL, WORD og EXCEL dokumenter og søgnngen må maks tage 10 - 15 sekunder og der er tale om mangle tusinde dokumenter.
Den løsning som jeg har overvejet er at brugeren, hver gang modtager en af ovenstående - så extracter metadata fra eks. word dokumentet og gemmer det som rå tekst i en tabel som hedder eks. metadata. Denne tabel er der lavet full-text index på (det er en mssql) og så laver man søgningen i denne tabel istedet for at skulle søge i mange tusinde filer.
Men er det løsningen eller er der noget som er meget smartere - og hvordan henter man metadata ud af word.