Jeg sidder med et ret irreterende problem. Jeg skal lave en database over nogen avissalg, og helst på kommunebasis.
Mit problem er at hvis jeg prøver at matche postnummer med kommune, får man at de overlapper visse steder. Fx. er Hillerød kommune fordelt på fire forskellige postnumre. Et eksempel kunne være at det samme postnummer findes både i Rudersdal- og Hillerød Kommune.
MEN.. jeg har også de direkte adresser på folk. Det jeg egenligt spørger efter, er en fornuftig måde at matche direkte adresser med kommuner. Er der nogen der har noget liggende?
Jeg har overvejet at lave et vægtet gennemsnit af læsere efter kommune, også fordele læserne efter befolkningsvægte, men det brød min chef sig ikke om.
Du kunne jo gribe opgaven an med de data du har, og så lave postnummer vægtede fordelinger, da det ikke er helt enorm hvor stor forskel der er på to personer der bor i henholdsvis postnummer A i rudersdal og postnummer A i hillerød (det er samme fysiske område).
Du kan også få adgang til kort- og matrikkelstyrelsens vejdata. Denne indeholde samtlige 3.5 millioner adresser i danmark, med information omkring kommune, postnummer og lignende. Disse data er dog meget rigide, og svær at arbejde med, da én vej kan være stavet på to forksellige måder alt efter hvilken kommune, postnummer eller landsdel den ligger i, og det er rigtig svær at matche "løs" adresse data op mod dette.
Ja. Problemet (mest min chefs) - er netop at man har X af postnummer A, men postnummer A figurerer i Kommune Y og Z. Hvordan vægter man så dem? Efter befolkningen i kommunerne? Så hvis der bor 3/4 i kommune Y, så fordeler man bare 75 pct. af abonnenterne der?
Den model har jeg diskuteret med min chef, og hun giver ikke meget for det.
Jeg arbejder i SAS, og det bliver garanteret et helvede at bruge INDEX til at matche "nogenlunde" adresser med det rigide data fra matrikkelstyrelsen.
Hvad jeg gerne ville ha'. Var et excelark, hvor eller anden smart person allerede har fordelt postnumre på kommune, med en eller anden god undskyldning/udregning.
hverken postnumre eller kommunegrænser er statiske - du bliver nødt til at gå via kort- og matrikkelstyrelsens vejdata. Ellers skal du ansætte en til at ajourføre regnearket løbende.
du skal 'bare' så lave en match-kode, der skifter aa med å, sct med sankt, fjerner alle bindestreger. Jeg ville nok starte med at have data uden mellemrum, uden bindestreger, uden punktummer og kun lower case. fx sctknudsgade11a1903frederiksbergc idet de sidste 4 cifre er postnummer - de øvrige er husnummer og så replace aa/å é/e sct/sankt osv Så er du ude over de fleste fejl/forskelligheder i data.
Claes57 - jeg har data liggende, og bruger den til at matche adresser, og tro mig, der er væsentligt mere i den end blot at "skifte" å med aa.
Og jeg holder fast i mit første forslag om at lave statistik på det tilgængelige data du har. Så du fordeler efter postnummer eller fordeler efter alder eller lignende.
Og kort- og matrikelstyrelsens data skal du ansøge om at få adgang til
Formatet på filen i linket er hvad jeg vil kalde typisk COBOL format.
Synes godt om
Ny brugerNybegynder
Din løsning...
Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.