Jeg skal lave et site, der kan søge i nogle pdf-filer. De indeholder nogle avissider, som er skannet og lavet til søgbar pdf. Findes der et modul eller lignende til at gøre det og samtidig fortælle hvilken side ordet er fundet på?
1) lav en søge PHP side som itererer over alle filer og bruger et PDF library (som f.eks. FPDF) til at læse filerne. Overkommeligt men langsomt og resourcekrævende.
2) lav et load PHP script som itererer over alle filer og bruger et PDF library (som f.eks. FPDF) til at læse filerne og gemmer teksten i en fulltext database (MySQL har fulltext mulighed) og en søge PHP side som bruger den fulltext database. Mere arbejde men hurtigere og mere effektivt.
3) brug en text search engine med support for PDF (der er mange - en af dem er Solr med Tika), prop PDF filerne ind i den og lave en søge PHP side som requester information via web service kald til text search engine. Nemt og effektivt, men medmindre din hosting facilitet har sådan noget kørende allerede er det nok for krævende at få op at køre.
Ikke helt sort, så jeg vil studere dine forslag lidt inden jeg spørger mere dumt!
Synes godt om
Ny brugerNybegynder
Din løsning...
Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.