Anwendbarkeit von Anonymisierungstechniken im Bereich Big Data
Von Andreas Bender, April 2015
Datenschutz und Datensicherheit erfordern einen sorgfältigen Umgang mit personenbezogenen Daten. Ein populärer Ansatz basiert auf der Anonymisierung dieser Daten.
In seiner Masterthesis untersucht inovexler Andreas Bender, inwieweit bekannte Anonymisierungsverfahren auf große Datenmengen in Big-Data-Systemen angewendet werden können.
Anonymisierung ist eine Methode, um personenbezogene Daten so zu verändern, dass keine Rückschlüsse mehr auf einzelne Personen gezogen werden können. Dennoch können, mit Hilfe von Datenanalysen, wertvolle Informationen aus den anonymisierten Daten gewonnen werden.
Die Arbeit bietet eine umfangreiche Übersicht zu Anonymisierungsmethoden bzw. -algorithmen, bei der Vor- und Nachteile verschiedener Ansätze aufgezeigt werden. Das Hauptaugenmerk liegt hierbei auf der Bewertung von Algorithmen hinsichtlich ihrer Effizienz und Skalierbarkeit.
Auf Grundlage der gesammelten Erkenntnisse wurde ein neuer paralleler Anonymisierungsalgorithmus entwickelt und mit aktuellen Big Data-Technologien (Apache Hadoop, Apache Spark) implementiert. Damit können große personenbezogene Datenmengen in einem Big-Data-System effizient anonymisiert werden.
Inhalt:
Grundlagen
- Struktur von Mikrodaten
- Anonymisierung und verwandte Themengebiete: z. B. Pseudonymisierung, Verschlüsselung
- Beispiele unzureichender Anonymisierung
Analyse
- Kategorisierung von Bedrohungen: Identity Disclosure, Attribute Disclosure u. a.
- Kriterien für Anonymität: k-Anonymity, l-Diversity, d-Presence u. a.
- Anonymisierungsoperationen: Generalisierung, Permutation, Slicing u. a.
- Untersuchung von Algorithmen: Mondrian/Rothko, Anatomize, Hilb u. a.
Open-Source-Implementierungen
- Frei verfügbare Implementierungen von Algorithmen: UTD Anonymization Toolbox u. a.
- Tools zur Anonymisierung von Mikrodaten: ARX Anonymization Tool, Cornell Anonymization Toolkit u. a.
Konzeption und Implementierung eines verteilten Algorithmus
- Entwurf eines neuen parallelen Algorithmus zur Anonymisierung von Mikrodaten
- Implementierung auf Basis von Apache Hadoop und Apache Spark
Evaluierung
- Datensätze: Zensusdaten, generierte Testdaten
- Testcluster auf Amazon Elastic MapReduce (Amazon EMR)
- Evaluierung der Effizienz und Skalierbarkeit
- Vergleich mit anderen Verfahren