Set fra et it-perspektiv, så tænker vi ofte ikke over det, men mere på, hvordan vi gemmer, henter, renser, beriger, flytter og sikrer data. Der findes et væld af værktøjer til at hjælpe os med dette, men grundlæggende er det vigtigt, at vi anvender valide data til at opnå de ønskede resultater, der understøtter forretningen.
Den måde vi kategoriserer data på, er afhængig af dets struktur, men generelt set arbejder vi med 3 hovedkategorier.
Strukturerede data er lette at organisere og følger et ufleksibelt format. Det er den type data, vi gemmer og finder i relationelle eller hierarkiske databaser, og anvendes ofte til at understøtte en virksomheds transaktionelle systemer.
Ustrukturerede data er komplekse og ofte af kvalitativ karakter, der er umulige at reducere til eller organisere i en relationel database. Det er informationer, der hverken har en foruddefineret datamodel eller er organiseret på en foruddefineret måde. Ustruktureret information er ofte tekst baseret, men kan også indeholde datoer, tal, billeder og tale.
Semi-strukturerede data er en form for strukturerede data, der ikke følger den formelle struktur af datamodeller, der er forbundet med relationsdatabaser eller andre former for datastrukturer, men alligevel indeholder tags eller andre markører, der adskiller semantiske elementer og skabe hierarkier af poster og felter.
Alt det ved vi, så hvad er det nye?
I den ikke så fjerne fremtid fortsætter fænomener som Public Cloud, Private Cloud, Multi Cloud, Hybrid Cloud og alle de ”almindelige” transaktionsapplikationer og -databaser med at vokse, og som et resultat heraf ser vi en datavækst på tværs af platforme. Data vokser hurtigere end nogensinde før, og i 2020 menes der at blive skabt omkring 1,7 megabyte ny information hvert sekund for hvert menneske på jorden. Vores akkumulerede digitale univers af data vil vokse og vil snart kunne tælles i zettabytes.
Vil vi bruge nogle af disse data til at understøtte vores forretning? Det er jeg sikker på, at vi vil, eftersom data omtales som den nye olie eller det nye sorte, men tænk over det her:
Vi har netop fastslået, at der er en god chance for at opbygge datasumpe med rekordhastighed, og du kan med rette begynde at føle dig bekymret eller gøre som mig, få trang til en forårsrengøring.
Dumping af data i datalakes (et enkelt eller flere sæt data repositories) vil i sig selv ikke gøre dit arbejde nemmere. Uden passende governance eller kvalitetsikring, kan datalakes hurtigt blive til ukontrollerbare datasumpe.
Forbrugere af data ved, at deres data lever i disse sumpe, men uden en klar strategi for data governance vil de sandsynligvis have svært ved at finde data på en nem måde, eller endnu vigtigere - have tillid til dem.
En pålidelig datalake indeholder relevante data fra strukturerede, semi-strukturerede og ustrukturerede kilder, og data kan let findes, tilgås, administreres og beskyttes.
Jeg har bemærket et voksende ønske om at slutte op om min trang til forårsrengøring, og en Chief Data Officer lyder som den passende titel til den forestående rengøringsopgave.
Hele pointen med en datalake er at understøtte forretniningsbeslutninger, udforme rapporter hvad enten det er lovpligtige, industrispecifikke eller andet, der giver mening for en virksomhed, ved at lagre, behandle og analysere store mængder af data løsrevet fra de operationelle systemer, men stadig i sikre zoner.
Men hvis du ikke får styr på datadelen i din datalake, så får du heller ikke glæde af ROI-delen af en datalake og hvis du ikke har planer om at få styr på ROI-delen af datalaken, hvorfor så overhovedet investere i datalaken?
Citat fra Gartner Group Research Note (August 2018):
Metadata management, data quality, data lineage, and data integration, among other things, are crucial prerequisites for a successful datalake.
Jeg er helt enig. Vi fokuserer meget på den rigtige lovgivningsmæssige rapportering eller AI som svaret på ethvert spørgsmål. Men rapporter og klogt udtænkte algoritmer anvender de data, der stilles til rådighed, uanset om de er gode eller dårlige. Det ville være temmelig uheldigt, at foretage lovgivningsmæssig rapportering på grundlag af forkerte eller vildledende data, og det ville være virkeligt ærgerligt at have en superavanceret AI-algoritme og få forkerte resultater på grund af forkerte data.
Forestil dig, at du er på et bibliotek og alt alle bibliotekets bøger lå på gulvet. Jeg er overbevist om, at du ville finde den bog, du leder efter, men det ville tage tid, og tid er en af de mest værdifulde ting vi har – både i erhvervslivet og i privatlivet, så vi ønsker at bruge den med omtanke, og derfor har bøger i biblioteker været katalogiseret så længe jeg kan huske omend med manuelle systemer fra en start, en det tjente det formål at vi kunne finde en bog relativt nemt.
Forårsrengøring eller oprydning i skuret er ikke en nem opgave og ikke nødvendigvis det, du vågner og har lyst til at gå i gang med søndag morgen, men med planlægning, indsats, værktøj og en vision om at fjerne rod og få overblik, er det en mulig og anbefalelsesværdig opgave. Hvis vi har datavækst nu, er det ikke realistisk, at den aftager i den nærmeste fremtid, så jo længere vi venter, jo større bliver opgaven.
Hvis du synes, at ovenstående lyder rigtigt, og du gerne vil se, hvor AI kan skabe værdi med data på nye måder, og her mener jeg ikke bare automatiserede beslutninger, forbedrede processer og forudsigelser, men automatisering af data klassificeringen, så er jeg sikker på, at du er enig i, at første skridt er, at få kontrol over data, hvordan du indsamler data, organiserer data, analyserer data og udtrækker data.
Jeg kan se nogle, der nikker og andre der tænker, at det er alt sammen meget fint, men indtil videre har hun ikke sagt noget om, hvordan jeg undgår at bruge lang tid på at rode rundt i sumpen.
Det er en korrekt iagttagelse, men forestil dig begrebet DataOps som et middel til at orkestrere mennesker, processer og teknologi med det formål at levere pålidelige data af høj kvalitet til forbrugere af data. DataOps-praksis er centreret om samarbejde i en organisation med henblik på smidighed, hastighed og nye datainitiativer. Ved hjælp af automatisering, er DataOps beregnet til, at løse de udfordringer, der er forbundet med med at finde, få adgang til, bearbejde og integrere data og gøre dem tilgængelige.
Skiftet til DataOps sker nu, og ifølge en nylig undersøgelse planlægger 73 % af virksomhederne at investere i DataOps. Nogle er allerede i gang, andre planlægger og andre igen har dette på tegnebrættet.
På et tidspunkt er jeg nødt til at at bekende kulør og anvise en god mulighed for at få styr på ovenstående.
IBM DataOps-programmet er en enestående mulighed for virksomheder, der søger en unik metode og et samlet sæt værktøjer til at løse det stigende krav om at stille valide data til rådighed.
IBM Cloud PakTM for Data giver begrebet DataOps nye muligheder og er du på udkig efter business-ready data, herunder:
- AI-aktiveret automatisering
- Stærk styring
- Markedsledende katalog (Watson Knowledge Catalog) der understøtter kontinuerligt at operationalisere data af høj kvalitet på tværs af virksomheden og levere vedligeholdte data klar til brug.
- Øget effektivitet, datakvalitet, søgbarhed og regler for en automatiseret data-pipeline med selvbetjening til de rigtige forbrugere på det rigtige tidspunkt fra stort set enhver kilde
Så er du ikke den eneste, og hvis du ligesom jeg helst vil bytte forårsrengøringen og oprydningen i skuret ud med noget lidt mere tiltalende, der hurtigt fører til det endelige resultat, som i sidste ende er at understøtte en forretning, så vil jeg sige, at smukke skabninger kan findes og game on.
Psssst! Du kan chatte med en IBM DataOps-ekspert her
Forfatter:
Susanne Beck Kimman
Technical Sales Manager Cloud, Data & AI
IBM Danmark