Big Data und Datenschutz
Martin Degeling - 01. Juli 2014 

am Beispiel von Kreditscorings
http://martin.degeling.com/pres/Degeling_BigData_Datenschutz.html
  • Datenschutz als juristisches Mittel
    Informationsverarbeitung zu regulieren

  • Datenschutzfragen sind eng verwoben mit der
    Entwicklung von Informationstechnologien

Warum Datenschutz und Big Data?
Big Data
Big Data - Meine Definition
Versammelt in einem Begriff eine Reihe von technischen
Vorgängen und Prozessen die mit der Datensammlung
und vor allem Auswertung zu tun haben.

Im Bezug auf Datenschutz besonders wichtig:
Im Vordergrund stehen Informationen deren Wert
nicht in der Korrektheit und Details, sondern in
der Verfügbarkeit (Geschwindkeit und Menge) liegen.

Datenschutz  1x1
Schutz personenbezogener Daten
(als Unterscheidung zur Datensicherheit)
Datenschutz  1x1
Personenbezogene Daten sind
Einzelangaben über persönliche oder sachliche
Verhältnisse einer bestimmten oder bestimmbaren
natürlichen Person (Betroffener).
Bundesdatenschutzgesetz (BDSG) §2 
Datenschutz  1x1
  • Geschlecht
  • Adresse
  • Alter
  • Wohndauer, Dauer des Mietverhältnisses
  • Häufigkeit der Umzüge
  • soziales Milieu
  • Familienstand
  • Zahl der Kinder
  • Haushaltstyp
  • Bildungsstand
  • berufliche Qualifikation
  • Beruf
  • Art der Beschäftigung
  • Dauer der Beschäftigung
  • Arbeitgeber
  • Haft und Haftende
  • Nationalität
  • Kfz-Besitz
  • Gesundheitszustand
  • Religion
Aus: Kamp, M., Weichert, T.: Scoringsysteme zur Beurteilung der Kreditwürdigkeit
- Chancen und Risiken für Verbraucher, (2005). Online verfügbar; zuletzt abgerufen am 10.06.2014
Beispiel: Ein SCHUFA-Datensatz
"Unter den Bedingungen der modernen Datenverarbeitung wird der 
Schutz des Einzelnen gegen unbegrenzte Erhebung, Speicherung, 
Verwendung und Weitergabe seiner persönlichen Daten von dem 
allgemeinen Persönlichkeitsrecht des Art. 2 Abs. 1 GG in Ver-
bindung mit Art. 1 Abs. 1 GG umfaßt. Das Grundrecht gewähr-
leistet insoweit die Befugnis des Einzelnen, grundsätzlich
selbst über die Preisgabe und Verwendung seiner persönlichen
Daten zu bestimmen.
BVerfGE 65, 1 - Volkszählungsurteil¹
1. Link. Zuletzt abgerufen am 10.06.2014
Recht auf informationelle Selbstbestimmung
Datenschutz  1x1
Staaten (und Unternehmen) sollen in den Möglichkeiten
personenbezogene Daten zu speichern und zu
verarbeiten beschränkt werden.

Datenschutzziele
Hypothese: Durch Datenschutz soll Privatheit ge-
schützt und damit die Autonomie der_s Einzelnen
in der liberalen Demokratie gestärkt werden.
 
Zur Bedeutung von Privatheit siehe: Rössler, B. (2001). Der Wert des Privaten. Frankfurt: Suhrkamp.
Datenschutz Grundsätze
  • Rechtmäßigkeit
  • Einwilligung
  • Zweckbindung
  • Erforderlichkeit 
  • Transparenz 
  • Datensicherheit
  • Kontrolle

Bizer, J. (2007). Sieben Goldene Regeln des Datenschutzes. Datenschutz und Datensicherheit - DuD. 31(5), 350–356.
zur Analyse von Systemen zur Datenverarbeitung
Beispiel:
Beispiel: SCHUFA
  • Schutzgemeinschaft Absatzfinanzierung
  • Bis 2000 e.V., seitdem AG
  • Ziel: Schutz vor Kreditbetrug
  • Sammelt personenbezogene Informationen
    zu Schulder_innen wie privat Insolvenzen,
    Zahlungsausfälle etc. 
Rechtmäßigkeit
Es gibt ein berechtigtes Interesse der Banken
an der Datenverarbeitung,  
da es um den Schutz vor
Kreditbetrüger_innenn geht
(1) Das Erheben, Speichern, Verändern oder Übermitteln
personenbezogener Daten oder ihre Nutzung als Mittel für die
Erfüllung eigener Geschäftszwecke ist zulässig
[...]
2. soweit es zur Wahrung berechtigter Interessen der
verantwortlichen Stelle erforderlich ist und kein Grund
zu der Annahme besteht, dass das schutzwürdige Interesse
des Betroffenen an dem Ausschluss der Verarbeitung oder Nutzung
überwiegt, [...]

§ 28 Abs. 1 S. 1 Nr. 2 BDSG
Einwilligung
Es bedarf einer schriftlichen, informierten
und freiwilligen
Einwilligungs

(3) Werden personenbezogene Daten beim Betroffenen erhoben, so ist er [...]
von der verantwortlichen Stelle über
1. die Identität der verantwortlichen Stelle,
2. die Zweckbestimmungen der Erhebung, Verarbeitung oder Nutzung und
3. die Kategorien von Empfängern nur, soweit der Betroffene nach den
Umständen des Einzelfalles nicht mit der Übermittlung an diese rechnen muss,
zu unterrichten

§4 BDSG

Zweckbindung
Bei der Erhebung personenbezogener Daten sind die Zwecke, für die
die Daten verarbeitet oder genutzt werden sollen, konkret festzulegen
§28 Abs. 1 Satz 2 BDSG
"Die SCHUFA speichert und nutzt die erhaltenen Daten. Die Nutzung umfasst auch die Errechnung eines Wahrscheinlich-
keitswertes auf Grundlage des SCHUFA-Datenbestandes zur Beurteilung des Kreditrisikos (Score). Die erhaltenen Daten
übermittelt sie an ihre Vertragspartner im Europäischen Wirtschaftsraum und der Schweiz, um diesen Informationen zur
Beurteilung der Kreditwürdigkeit von natürlichen Personen zu geben."
Aus der Einwilligungserklärung der KfW-Bank
Erforderlichkeit
Es sollen im Sinne der Datensparsamkeit (§3a BDSG)
nur die für den Zweck notwendigen Daten erhoben werden.
Sie sollen gelöscht werden wenn Zweck erfüllt
ist (§35 BDSG).

Führt zu unterschiedlichen Löschzeiten, etwa von
  • Basisdaten (abh. von Vertragslaufzeiten; quasi nie)
  • Konkreten (negativ) Einträgen (nach Ablauf von gesetzl. Fristen)
  • Scores (je nach Verwendung)

Möglichkeit der Sperrung statt Löschung
Die SCHUFA verwendete eine geschlossene Liste an Datenpunkten.
Datensicherheit
Confidentiality - Vertraulichkeit der Daten
Integrity - Schutz vor unbefugten Änderungerungen
Availability - Verfügbarkeit der Daten

Liegt im Interesse der Unternehmen
Kontrolle
Unternehmen in denen mehr als 
neun Mitarbeiter_innen mit der
Verarbeitung personenbezogener Daten
beschäftigt sind, sind verpflichtet
eine_n Datenschutzbeauftragte_n zu
bennen (§4f BDSG)

Bildquelle: Tagesschau.de vom 17.12.2013
Transparenz
Betroffenenrechte (§6 BDSG)
  • Auskunft
  • Berichtigung 
  • Löschung
  • Sperrung 
SCHUFA Auskunft
  • Verpflichtung zur Beauskunftung des 
    Scores erst seit 2007
  • Jährliche Auskunft seit 2010 kostenfrei
! Keine Auskunft über die Art der Berechnung
! Anfangs hatte die Auskunft einen negativen
Effekt auf den Score

Aufbau eines Scores bei der SCHUFA
>97,5 = sehr geringes Risiko
95-97,5 = überschaubares Risiko
Mein Schufa Scores
Auf Basis eine Anfrage im Sommer, wobei der Score vierteljährlich
berechnet wird.
  • Geschlecht
  • Adresse
  • Alter
  • Wohndauer, Dauer des Mietverhältnisses
  • Häufigkeit der Umzüge
  • soziales Milieu
  • Familienstand
  • Zahl der Kinder
  • Haushaltstyp
  • ...
Anreicherung des Data Doubles
97,85%
  • §6a: Verbot automatisierter Einzelentscheidungen

  • §28b: Scores müssen auf "wissenschaftlichen"
    Verfahren beruhen.

  • Gerichtsurteile (jährliche Gratis-Auskunft, keine 
    native Bewertung bei Auskunft, Score muss 
    einsehbar sein...)
Spezielle Scoring-Regulierungen
Die SCHUFA ist nicht allein
Scoring und Big Data
Schutz vor Betrug     Verhaltsvorhersage
Geschlossene Datenbasis     "Datenhalde" Internet
Festgelegter Zweck     Offene Datenanalyse
Erweiterung des SCHUFA Produktportfolio
  • Von dem Austausch zwischen den Banken zum 
    allgemeinen "Bontitätsscoring"
  • Identitätsfestellung (ebay)
  • Mietschuldenfreiheit
  • Unternehmensbonitäten
  • Scores für unterschiedliche Marktbereiche

Aus der SCHUFA Leistungsbroschüre (abgerufen am 29.06.2014)
Aus: Hornung, P. & Benedikt Strunz: "Geheime Liste: Worauf die Schufa achtet. " 
NDR.de 10.04.2014 (letzter Zugriff am: 12.6.2014)
Bei der Berechnung des Scores werden vor allem
Werte berücksichtigt die nicht einen Aussage über
eine Person treffen, sondern über die Daten selbst
SCHUFA: Der Wert der Metadaten
  1. Merkmalsalter (Datum der Kontoeinrichtung, letzte Adressänderung)
  2. Anfragenzählung (Wie oft werden z.B. Kreditanfragen gestellt)
  3. Institutszählug (z.B. Anzahl der Konten)
  4. Anzahl der Voranschriften
  5. Negativeinträge
  6. Alter
  7. Merkmalszählung (wie viele Daten sind vorhanden)
  8. Geburtsort (binär)
  9. Geschlecht
...
Mehr Big Data Scoring:
Big Data Scoring
Kreditech - Geschäftsmodel 
Kredite, deren Höhe und Verzinsung dynamisch
bestimmt werde, auf Basis von








Nach Eigenauskunft sind das bis zu 8000 Datenpunkte

Quellen: Kreditech.com und Unternehmensdarstellugen
  • Ortsdaten (GPS, mikro-geografische Daten) 
  • Geräteinformationen (Auflösung, Hersteller) 
  • Social Graph ("How creditworthy are your friends")
  • Behavioural Analytics (Verhalten auf der Webseite)
  • Online Shopping verhalten (z.B. eBay)
Kreditech
Nur 10% der Anträge werden bewilligt.
Alle Daten werden gespeichert.
Ziel:
Entwicklung eines allgemeingültigen "Scoring-Models"
und Scoring-As-A-Service.

Nicht das Ziel: Eine große Bank werden

"Long Termin Diversification Strategy"
Quelle: Sebastian Diemer, NOAH 12 (2013) / Youtube
Konflikte mit dem 
klassischen Datenschutz-
Verständnis
  • Die Einwilligung kann nicht ausreichend
    über folgende informieren, da Ergebnisse
    noch nicht feststehen.
  • Für die anonymisierte Zweitverwertung der 
    Daten braucht es keine Einwilligung.
Einwilligungen beziehen sich auf die
Erhebung zum Geschäftszweck.

Einwilligung
Daten werden im Rahmen eines konkreten
Vertrags erhoben.

Durch Anonymisierung fallen die Daten aus
dem Regulierungsbereich des Datenschutz
und können für jeglichen Zweck genutzt werden.

Zweckbindung
  • Daraus werden weitere Daten "generiert".
  • Andere Anbieter erheben so viele Daten
    wie (technisch) möglich ist.
  • "öffentliche" Daten fallen nicht unter die
    Datenschutzregulierung

Die SCHUFA arbeitet mit einer
abgeschlossenen Liste von Datenpunkten.

Erforderlichkeit
Für Basisdaten kann (u.U.)
Löschung beantragt werde

Die Zuweisungen (Korrelationen) bleiben
erhalten und können bei Wieder-Anmeldung
neu zugewiesen werden.

Löschung
Die Auskunft bezieht sich nur auf die
vorhandenen Daten zu dem Zeitpunkt
der Beauskunftung.

  • Bei dynamischen Modellen ändert sich
    ein Score regelmäßig.
  • Es besteht kein nachvollziehbar kausaler
    Zusammen
    hang zwischen Daten und Score.
Auskunft
  • Die Auskunft enthält keine Informationen
    über 
    die Funktionsweise der Algorithmen. 
  • Das Ziel des "Wissens was jemand weiß"
    wird nicht 
    erreicht.
  • Score bezieht nicht nur auf Basisdaten
    sondern auch Zusatzinformationen
Basisdaten werden korrekt beauskunftet und
können korrigiert werden.

Transparenz
Verschlüsselung der Daten verhindert
nicht die Auswertung der Meta-Daten
Weiterführender Artikel: Gürses, S., Preneel, B., Berendt, B.: PETs under Surveillance: A Critical review of the potentials 
and limitations of the privacy as confidentiality paradigm. Presented at the 2nd Hot Topics in Privacy Enhancing 
Technologies (HotPETs 2009). Online verfügbar. Zuletzt abgerufen am 03.01.2014.
Daten werden sicher aufbewahrt.
Datensicherheit
"Umgehung" der Regulierung durch
den "Service" (personbezogene Daten werden
nicht weitergegeben)

Weitergabe der Daten der Daten ohne
Einwilligung ist untersagt.

Einschränkungen
Datenschutz ist deutsches Recht (ggf. noch 
europäisches)

Die Modelle können auch im Ausland
erhoben ermittelt und hier
angewendet werden

Anwendbarkeit
Zusammenfassung (1/2)
Beim Kreditscorings geht es schon lange um Big Data.
Daher gibt es eine ganze Reihe juristischer Regulierungen. 
Trotzdem gibt es einen Trend hin zu mehr Daten und
undurchsichtigeren Auswertungen.

Ziel von Unternehmen wie Kreditech ist nicht 
der Verkauf von personenbezogenen Daten, 
sondern die "Vermietung" des Wissens über Daten,
welches Personen zugewiesen werden kann.

Datenschutz schützt eine Einzelperson vor 
ungewollten, missbräuchlichen Nutzung
personenbezogener Daten.
Für Big Data ist der_die Einzelne nicht als
Datenquelle Interessant, sondern als Datenziel.
"Klassische" Datenschutzregulierung schlägt daher
fehl. 

Zusammenfassung (1/2)
That's it.
Easycash
Entscheidung über das Zahlungsverfahren anhand gesammelter Daten
PIN Verfahren
Lastschrift Zahlung
 0,3 % des Umsatzes,
mindestens 0,08 € pro Zahlungsvorgang
0 oder
0,04 € bei Abfrage der Sperrdatei
Quelle: easycash - Info zu Volksbanken, abgerufen am 10.06.2014
Vorteil: Sichere Zahlung
Vorteil: Keine PIN Eingabe (schneller)
¹Achtung, ausgedacht!
Welcher Tag ist heute
In welchem Geschäft
 steht die Person
Ist die Karte als
gestohlen gemeldet
Gab es mit der Karte schon mal 
einen Zahlungsverzug
Karten bezogene Daten
Kontext Informationen¹
Wie hoch ist der Preis?
PIN Verfahren
Lastschriftverfahren
Keine Kartenzahlung
Easycash
Daten die Easycash bekommt
Filiale / Standort
Geschäft
(Lidl, Saturn, Gravis)
Kontonummer
Umsatzhöhe
direkt erhobene Daten
Ermittelbare Daten
Art des Geschäfts 
(Lebensmittel, Elektronik oder vllt Luxusgüter)
Bewegungsprofil eine*s Kontoinhaber*in
Sozio-demografische Annahmen
(Berlin-Marzahn vs. München Schwabingen) 
kombiniert mit Art des Ladens
Fehlbuchungen
Einkommenshöhe
(Kein Geld mehr am Monatsende)
Eigenauskunft Ausschöpfungsgrad der Karte, "Kundenqualität" und Bewegungsprofile
Peter Hornung und Jürgen Webermann: Der Datenkrake von Ratingen NDR.de
vom 23. September 2010; Noch online verfügbar im Webarchive (zuletzt gesehen am 10.06.2014)