Skal du arbejde med big data og avanceret data-analyse, er der ingen vej uden om open source-værktøjet Hadoop.
Sådan lyder det fra det anerkendte analysehus Forrester, der går så vidt som at fastslå, at Hadoop er 'obligatorisk' for enhver organisation, der vil arbejde med avanceret data-analyse, som skal føre til erkendelser, som det er muligt at agere efter.
Ifølge Forrester anvender virksomhederne i dag kun en mindre del - mellem 25 procent og 40 procent - af den data, som de faktisk genererer, til analyse og business intelligence.
Det giver god plads til forbedring. Ifølge analysehuset er der da også stor vækst i udbredelsen af Hadoop, som flere og flere virksomheder tager til sig.
Ifølge Forrester er de fleste af de helt store virksomheder allerede i gang med det, som Forrester lidt kækt kalder for 'Hadooponomics,' hvilket analysehuset er ordet for 'evnen til lineært at skalere både datastorage og data-behandling."
Du kan læse mere om Hadoop-værktøjet her: Sådan fungerer Hadoop - det mest hypede open source-værktøj lige nu
De fem bedste
Der findes en stribe forskellige Hadoop-løsninger, som hver især har deres fordele og ulemper.
Der er således ingen dominerende eller absolut markedsledende spiller.
Ifølge Forrester er der dog fem store spillere i den allerøverste liga, nemlig Cloudra, Hortonworks, MapR, IBM og Pivotal.
Disse fem lægger ifølge Forrester vægt på features, som erhvervslivet sætter pris på, nemlig sikkerhed, skalerbarhed, integration, performance og governance.
Forrester har ranglistet Hadoop-distrubitionerne ud fra 30 forskellige kriterier.
Blandt de store findes også Amazons Elastic MapReduce samt Microsofts HDInsight, men dem betragter Forrester som en anden type løsning, da de alene kan køre i henholdsvis Amazons og Microsofts cloud-universer.
Her kommer Forresters liste over de fem væsentligste Hadoop-distributioner lige nu:
1: Cloudera
Cloudera blev grundlagt i 2008 og udnævnes af Forrester som verdens for tiden bedste Hadoop-distribution.
Selskabet har ombygget open source-baserede Hadoop en del med henblik på at forbedre sikkerhed, drift-sikkerhed og administrationen, lyder det fra Forrester.
Cloudera har en markedsværdi på knap 30 milliarder kroner og har indtil videre fået tilført cirka fem milliarder kroner i kapital.
2: Hortonworks
Amerikanske Hortonworks kommer ind på andenpladsen på Forresters liste.
Selskabet blev børsnoteret i 2015 og regnes for at være hoved-konkurrent til Cloudera.
Selskabet - der har været ejet af Yahoo - sværger til 100 procent open source, og alle selskabets løsninger og tilføjelser er open source, hvilket ifølge selskabet skal sikre brugerne fuld fleksibilitet.
3: MapR
Ifølge Forrester scorer MapR, der blandt andet står bag NoSQL-databasen M7, især point, når man kigger på afbalanceringen mellem performance, skalerbarhed og brugervenlighed.
4: IBM
IBM er verdens måske allerstørste leverandør af big data-løsninger, hvis man måler på omsætning - ikke mindst fordi selskabet er meget dygtigt til at sælge big data-løsninger til eksisterende kunder (som er mange).
Bedst kendte produkter er DB2, Informix og InfoSphere.
5: Pivotal
På femtepladsen har Forrester Pivotal, der er delvist ejet af EMC, som Dell er i færd med at købe.
Selskabets Hadoop-distribution integrerer ifølge Forrester godt med kunder, der anvender Pivotals øvrige løsninger.
Sådan vil Hadoop udvikle sig
Forrester kommer i rapporten med flere forudsigelser om Hadoop.
Analysehuset mener således, at SQL står til at blive Hadoops 'killer-app' - altså den applikation, der for alvor kan føre løsningen frem mod det store gennembrud.
Ligeledes spår Forrester, at der snart vil dukke en hel vifte af nye Hadoop-distributioner op fra selskaber som HP, Oracle, SAP og Software AG.
Hadoop bygger på teknologien MapReduce, som eksempelvis Google benytter til behandling af store datasæt via distribuerede systemer. Hadoop er skrevet i Java og licenseret under Apache.
Stanford University har udarbejdet en undervisningsvideo om Hadoop. Den kan du se her:
Læs også:
Stor mangel på data-eksperter: Derfor er det et problem for Danmark