Massive mængder data fra HDFS (Hadoop Distributed File System), der blandt andet bruges til big data-projekter, kan søges frem via en internetforbindelse - hvis man altså har de rigtige værktøjer, og dataene ikke er beskyttet godt nok.
Det skriver John Matherly, der står bag Shodan-søgemaskinen, der bruges til at søge efter maskiner og servere, der er tilsluttet internettet.
Hans indlæg kommer efter, at der i længere tid har været fokus på datasikkerheden i blandt andet MongoDB, Elastic og Redis - andre populære værktøjer for udviklere og dataanalytikere.
"Men i forhold til datavolumen er det HDFS, der er mastodonten," skriver John Matherly.
Så mange servere og data er der
Han har via Shodan fundet 48.820 MongoDB-servere, der potentielt udstiller 25 TB data.
Der er 'kun' 4.487 HDFS-servere, men de indeholder til gengæld hele 5.120 TB data, der potentielt kan blive tilgået af de forkerte.
"Selvom der er flere MongoDB-databaser tilsluttet til internettet uden autentificering i forhold til data, så overgås det af HDFS-clusters (25 TB vs 5 PB)."
Næsten alle de HDFS NameNodes, Shodan-søgemaskinen finder, er placeret i USA (1.900) og i Kina (1.426), og de hostes næsten alle på Amazons og Alibabas cloud-løsninger.
John Matherly mener, at denne viden er vigtig, især i lyset af aktuelle sikkerhedstrusler.
"De ransomware-angreb på databaser, som blev omtalt vidt og bredt tidligere i år, finder stadig sted. Og de påvirker både MongoDB- og HDFS-udrulninger."
Det fremgår ikke af Shodan-stifterens indlæg, hvor alvorligt det reelt står til med dataene fra MongoDB og HDFS, men der er næppe tvivl om, at langt fra alle de store data-projekter, der finder sted i disse år, har godt nok styr på den sikkerhedsmæssige del af det.
Læs også:
Sådan fungerer Hadoop - det mest hypede open source-værktøj lige nu
Stor mangel på data-eksperter: Derfor er det et problem for Danmark