Skæbner er gravet frem fra glemslen med data mining

Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den Computerworld d. 4. oktober 2002.


Data mining-teknologi har gjort det muligt for ungarske historikere at klarlægge, hvad der skete med titusindvis af forsvundne ungarske krigsfanger.

Ungarske historikere har taget en for historikere utraditionel teknik i brug. Opgaven har været at finde ud af, hvilken skæbne, der egentlig overgik tusinder af de ungarske soldater, som blev taget til fange af Den røde Hær i slutningen af Anden Verdenskrig.
Metoden, der blev anvendt, var data mining af materiale samlet i forfaldne arkiver.
Ungarn kæmpede fra 1941 til 1945 på tysk side og sovjetiske tropper tog næsten en million ungarske fanger, hvoraf 750.000 døde i krigsfangelejre og koncentrationslejre.
De oplysninger historikerne nu er nået frem til skal blandt andet anvendes til at yde erstatning til de efterladte ifølge de love om kompensation, der blev vedtaget i Ungarn i 1990 efter kommunismens sammenbrud.
Samtidig anvendes materialet både af ungarske historikere, det ungarske Røde Kors og private brugere, der søger oplysninger om de forsvundne.
Analyse og kategorisering
Historikerne har anvendt et data mining system fra SAS Institute til at anlysere og kategorisere hundredetusindvis af dokumenter.
Data mining projektet er gennemført af historikerne i samarbejde med det ungarske it-konsulentfirma KFKI ISYS. Der har opbygget et data warehouse med oplysninger om krigsfangerne.
Grundmaterialet for forskningen er 58.781 optegnelser fra den russiske efterretningstjeneste NKVD's arkiver samt 630.897 dokumenter fra ungarske arkiver.
Dokumentkilderne var meget omfattende, usorterede, stort set ulæselige og skrevet både med kyrilliske og latinske bogstaver. Metodikken i optegnelserne fra de forskellige kilder var desuden vidt forskellig, og derfor på alle måder svære at have at gøre med.
Datakvalitet i centrum
En væsentlig opgave har således været den oprensning af data, der svarer til hvad der sker, når man opbygger et datawarehouse i en virksomhed.
Historikerne og it-specialisterne har anvendt særlige algoritmer til at skabe tre forskellige statistiske analysemetoder kombineret med sandsynlighedsberegninger. På den måde er informationer om blandt andet navne, tid og sted blevet sammenkædet på kryds og tværs.
Historikerne har opstillet kriterier for, hvor højt sammenfaldet af informationer fra de forskellige kilder skal være, for at de kan tillægges den tilstrækkelige sandhedsværdi.
Den fejltype, der har været afgørende, er først og fremmest manglende sammenfald mellem personer i arkiverne. Dernæst er de forskellige informations-par, hvor informationerne ikke stemmer tilstrækkeligt overens identificeret og sorteret fra.
På denne måde er historikerne nået frem til at klassificere omkring 36.000 personer, hvor sammenfaldet af oplysningerne fra de forskellige kilder er så stort, at det er sandsynligt, at informationerne er korrekte.
Navnene er nu lagt ud på webstedet www.hadifogoly.adatbanyaszat.hu. Her er det muligt for brugere at søge på informationerne i data warehouset.

Billedtekst:
Arkiverne har som det fremgår øverst fået lov at forfalde de sidste godt 50 år.

Billedtekst:
Kildematerialet i de sammenlignede arkiver er af meget vekslende kvalitet. Her ses ungarsk materiale.




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
KEYBALANCE A/S
Udvikling og salg af økonomisystemer samt CRM og MPS. Systemer til blandt andet maskinhandlere, vvs-branchen, vognmænd, låsesmede,handelsvirksomheder

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Strategisk It-sikkerhedsdag 2025, Aarhus: Viden om trusler og tendenser – Beskyt din virksomhed

Gå ikke glip af årets vigtigste begivenhed for it-sikkerhedsprofessionelle! Mød Danmarks førende eksperter, deltag i inspirerende diskussioner og få praktisk erfaring med de nyeste teknologier. Bliv klogere på de seneste trusler og lær, hvordan du bedst beskytter din virksomhed mod cyberangreb. Tilmeld dig nu og vær på forkant med fremtidens cybersikkerhedsudfordringer.

21. januar 2025 | Læs mere


Strategisk It-sikkerhedsdag 2025, København: Viden om trusler og tendenser – Beskyt din virksomhed

Gå ikke glip af årets vigtigste begivenhed for it-sikkerhedsprofessionelle! Mød Danmarks førende eksperter, deltag i inspirerende diskussioner og få praktisk erfaring med de nyeste teknologier. Bliv klogere på de seneste trusler og lær, hvordan du bedst beskytter din virksomhed mod cyberangreb. Tilmeld dig nu og vær på forkant med fremtidens cybersikkerhedsudfordringer.

23. januar 2025 | Læs mere


Computerworld Cyber Briefing

Én gang om måneden leverer Computerworld Event et 30 minutters Cyber Briefing, hvor du får overblik over de mest aktuelle angreb, største trusler og tendenser samt giver dig gode råd, der kan implementeres direkte i din it-sikkerhedsafdeling.

03. februar 2025 | Læs mere