Big Data und Datenschutz
Martin Degeling - 01. Juli 2014
am Beispiel von Kreditscorings
http://martin.degeling.com/pres/Degeling_BigData_Datenschutz.html
- Datenschutz als juristisches Mittel
Informationsverarbeitung zu regulieren - Datenschutzfragen sind eng verwoben mit der
Entwicklung von Informationstechnologien
Warum Datenschutz und Big Data?
Big Data
Big Data - Meine Definition
Versammelt in einem Begriff eine Reihe von technischen
Vorgängen und Prozessen die mit der Datensammlung
und vor allem Auswertung zu tun haben.
Vorgängen und Prozessen die mit der Datensammlung
und vor allem Auswertung zu tun haben.
Im Bezug auf Datenschutz besonders wichtig:
Im Vordergrund stehen Informationen deren Wert
nicht in der Korrektheit und Details, sondern in
der Verfügbarkeit (Geschwindkeit und Menge) liegen.
nicht in der Korrektheit und Details, sondern in
der Verfügbarkeit (Geschwindkeit und Menge) liegen.
Datenschutz 1x1
Schutz personenbezogener Daten
(als Unterscheidung zur Datensicherheit)
Datenschutz 1x1
Personenbezogene Daten sind
Einzelangaben über persönliche oder sachliche
Verhältnisse einer bestimmten oder bestimmbaren
natürlichen Person (Betroffener).
Einzelangaben über persönliche oder sachliche
Verhältnisse einer bestimmten oder bestimmbaren
natürlichen Person (Betroffener).
Bundesdatenschutzgesetz (BDSG) §2
Datenschutz 1x1
- Geschlecht
- Adresse
- Alter
- Wohndauer, Dauer des Mietverhältnisses
- Häufigkeit der Umzüge
- soziales Milieu
- Familienstand
- Zahl der Kinder
- Haushaltstyp
- Bildungsstand
- berufliche Qualifikation
- Beruf
- Art der Beschäftigung
- Dauer der Beschäftigung
- Arbeitgeber
- Haft und Haftende
- Nationalität
- Kfz-Besitz
- Gesundheitszustand
- Religion
Aus: Kamp, M., Weichert, T.: Scoringsysteme zur Beurteilung der Kreditwürdigkeit
- Chancen und Risiken für Verbraucher, (2005). Online verfügbar; zuletzt abgerufen am 10.06.2014
- Chancen und Risiken für Verbraucher, (2005). Online verfügbar; zuletzt abgerufen am 10.06.2014
Beispiel: Ein SCHUFA-Datensatz
"Unter den Bedingungen der modernen Datenverarbeitung wird der
Schutz des Einzelnen gegen unbegrenzte Erhebung, Speicherung,
Verwendung und Weitergabe seiner persönlichen Daten von dem
allgemeinen Persönlichkeitsrecht des Art. 2 Abs. 1 GG in Ver-
bindung mit Art. 1 Abs. 1 GG umfaßt. Das Grundrecht gewähr-
leistet insoweit die Befugnis des Einzelnen, grundsätzlich
selbst über die Preisgabe und Verwendung seiner persönlichen
Daten zu bestimmen.
Schutz des Einzelnen gegen unbegrenzte Erhebung, Speicherung,
Verwendung und Weitergabe seiner persönlichen Daten von dem
allgemeinen Persönlichkeitsrecht des Art. 2 Abs. 1 GG in Ver-
bindung mit Art. 1 Abs. 1 GG umfaßt. Das Grundrecht gewähr-
leistet insoweit die Befugnis des Einzelnen, grundsätzlich
selbst über die Preisgabe und Verwendung seiner persönlichen
Daten zu bestimmen.
BVerfGE 65, 1 - Volkszählungsurteil¹
1. Link. Zuletzt abgerufen am 10.06.2014
Recht auf informationelle Selbstbestimmung
Datenschutz 1x1
Staaten (und Unternehmen) sollen in den Möglichkeiten
personenbezogene Daten zu speichern und zu
verarbeiten beschränkt werden.
personenbezogene Daten zu speichern und zu
verarbeiten beschränkt werden.
Datenschutzziele
Hypothese: Durch Datenschutz soll Privatheit ge-
schützt und damit die Autonomie der_s Einzelnen
in der liberalen Demokratie gestärkt werden.
schützt und damit die Autonomie der_s Einzelnen
in der liberalen Demokratie gestärkt werden.
Zur Bedeutung von Privatheit siehe: Rössler, B. (2001). Der Wert des Privaten. Frankfurt: Suhrkamp.
Datenschutz Grundsätze
- Rechtmäßigkeit
- Einwilligung
- Zweckbindung
- Erforderlichkeit
- Transparenz
- Datensicherheit
- Kontrolle
Bizer, J. (2007). Sieben Goldene Regeln des Datenschutzes. Datenschutz und Datensicherheit - DuD. 31(5), 350–356.
zur Analyse von Systemen zur Datenverarbeitung
Beispiel:
Beispiel: SCHUFA
- Schutzgemeinschaft Absatzfinanzierung
- Bis 2000 e.V., seitdem AG
- Ziel: Schutz vor Kreditbetrug
- Sammelt personenbezogene Informationen
zu Schulder_innen wie privat Insolvenzen,
Zahlungsausfälle etc.
Rechtmäßigkeit
Es gibt ein berechtigtes Interesse der Banken
an der Datenverarbeitung, da es um den Schutz vor
Kreditbetrüger_innenn geht
an der Datenverarbeitung, da es um den Schutz vor
Kreditbetrüger_innenn geht
(1) Das Erheben, Speichern, Verändern oder Übermitteln
personenbezogener Daten oder ihre Nutzung als Mittel für die
Erfüllung eigener Geschäftszwecke ist zulässig
[...]
2. soweit es zur Wahrung berechtigter Interessen der
verantwortlichen Stelle erforderlich ist und kein Grund
zu der Annahme besteht, dass das schutzwürdige Interesse
des Betroffenen an dem Ausschluss der Verarbeitung oder Nutzung
überwiegt, [...]
personenbezogener Daten oder ihre Nutzung als Mittel für die
Erfüllung eigener Geschäftszwecke ist zulässig
[...]
2. soweit es zur Wahrung berechtigter Interessen der
verantwortlichen Stelle erforderlich ist und kein Grund
zu der Annahme besteht, dass das schutzwürdige Interesse
des Betroffenen an dem Ausschluss der Verarbeitung oder Nutzung
überwiegt, [...]
§ 28 Abs. 1 S. 1 Nr. 2 BDSG
Einwilligung
Es bedarf einer schriftlichen, informierten
und freiwilligen Einwilligungs
und freiwilligen Einwilligungs
(3) Werden personenbezogene Daten beim Betroffenen erhoben, so ist er [...]
von der verantwortlichen Stelle über
1. die Identität der verantwortlichen Stelle,
2. die Zweckbestimmungen der Erhebung, Verarbeitung oder Nutzung und
3. die Kategorien von Empfängern nur, soweit der Betroffene nach den
Umständen des Einzelfalles nicht mit der Übermittlung an diese rechnen muss,
zu unterrichten
§4 BDSG
von der verantwortlichen Stelle über
1. die Identität der verantwortlichen Stelle,
2. die Zweckbestimmungen der Erhebung, Verarbeitung oder Nutzung und
3. die Kategorien von Empfängern nur, soweit der Betroffene nach den
Umständen des Einzelfalles nicht mit der Übermittlung an diese rechnen muss,
zu unterrichten
§4 BDSG
Zweckbindung
Bei der Erhebung personenbezogener Daten sind die Zwecke, für die
die Daten verarbeitet oder genutzt werden sollen, konkret festzulegen
die Daten verarbeitet oder genutzt werden sollen, konkret festzulegen
"Die SCHUFA speichert und nutzt die erhaltenen Daten. Die Nutzung umfasst auch die Errechnung eines Wahrscheinlich-
keitswertes auf Grundlage des SCHUFA-Datenbestandes zur Beurteilung des Kreditrisikos (Score). Die erhaltenen Daten
übermittelt sie an ihre Vertragspartner im Europäischen Wirtschaftsraum und der Schweiz, um diesen Informationen zur
Beurteilung der Kreditwürdigkeit von natürlichen Personen zu geben."
keitswertes auf Grundlage des SCHUFA-Datenbestandes zur Beurteilung des Kreditrisikos (Score). Die erhaltenen Daten
übermittelt sie an ihre Vertragspartner im Europäischen Wirtschaftsraum und der Schweiz, um diesen Informationen zur
Beurteilung der Kreditwürdigkeit von natürlichen Personen zu geben."
Erforderlichkeit
Es sollen im Sinne der Datensparsamkeit (§3a BDSG)
nur die für den Zweck notwendigen Daten erhoben werden.
Sie sollen gelöscht werden wenn Zweck erfüllt
ist (§35 BDSG).
nur die für den Zweck notwendigen Daten erhoben werden.
Sie sollen gelöscht werden wenn Zweck erfüllt
ist (§35 BDSG).
Führt zu unterschiedlichen Löschzeiten, etwa von
Möglichkeit der Sperrung statt Löschung
- Basisdaten (abh. von Vertragslaufzeiten; quasi nie)
- Konkreten (negativ) Einträgen (nach Ablauf von gesetzl. Fristen)
- Scores (je nach Verwendung)
Möglichkeit der Sperrung statt Löschung
Die SCHUFA verwendete eine geschlossene Liste an Datenpunkten.
Datensicherheit
Confidentiality - Vertraulichkeit der Daten
Integrity - Schutz vor unbefugten Änderungerungen
Availability - Verfügbarkeit der Daten
Integrity - Schutz vor unbefugten Änderungerungen
Availability - Verfügbarkeit der Daten
Liegt im Interesse der Unternehmen
Kontrolle
Unternehmen in denen mehr als
neun Mitarbeiter_innen mit der
Verarbeitung personenbezogener Daten
beschäftigt sind, sind verpflichtet
eine_n Datenschutzbeauftragte_n zu
bennen (§4f BDSG)
neun Mitarbeiter_innen mit der
Verarbeitung personenbezogener Daten
beschäftigt sind, sind verpflichtet
eine_n Datenschutzbeauftragte_n zu
bennen (§4f BDSG)
Bildquelle: Tagesschau.de vom 17.12.2013
Transparenz
Betroffenenrechte (§6 BDSG)
- Auskunft
- Berichtigung
- Löschung
- Sperrung
SCHUFA Auskunft
- Verpflichtung zur Beauskunftung des
Scores erst seit 2007 - Jährliche Auskunft seit 2010 kostenfrei
! Keine Auskunft über die Art der Berechnung
! Anfangs hatte die Auskunft einen negativen
Effekt auf den Score
! Anfangs hatte die Auskunft einen negativen
Effekt auf den Score
Aufbau eines Scores bei der SCHUFA
>97,5 = sehr geringes Risiko
95-97,5 = überschaubares Risiko
95-97,5 = überschaubares Risiko
Mein Schufa Scores
Auf Basis eine Anfrage im Sommer, wobei der Score vierteljährlich
berechnet wird.
berechnet wird.
- Geschlecht
- Adresse
- Alter
- Wohndauer, Dauer des Mietverhältnisses
- Häufigkeit der Umzüge
- soziales Milieu
- Familienstand
- Zahl der Kinder
- Haushaltstyp
- ...
Anreicherung des Data Doubles
97,85%
- §6a: Verbot automatisierter Einzelentscheidungen
- §28b: Scores müssen auf "wissenschaftlichen"
Verfahren beruhen.
- Gerichtsurteile (jährliche Gratis-Auskunft, keine
native Bewertung bei Auskunft, Score muss
einsehbar sein...)
Spezielle Scoring-Regulierungen
Die SCHUFA ist nicht allein
Scoring und Big Data
Schutz vor Betrug Verhaltsvorhersage
Geschlossene Datenbasis "Datenhalde" Internet
Festgelegter Zweck Offene Datenanalyse
Erweiterung des SCHUFA Produktportfolio
- Von dem Austausch zwischen den Banken zum
allgemeinen "Bontitätsscoring" - Identitätsfestellung (ebay)
- Mietschuldenfreiheit
- Unternehmensbonitäten
- Scores für unterschiedliche Marktbereiche
Aus der SCHUFA Leistungsbroschüre (abgerufen am 29.06.2014)
Aus: Hornung, P. & Benedikt Strunz: "Geheime Liste: Worauf die Schufa achtet. "
NDR.de 10.04.2014 (letzter Zugriff am: 12.6.2014)
NDR.de 10.04.2014 (letzter Zugriff am: 12.6.2014)
Bei der Berechnung des Scores werden vor allem
Werte berücksichtigt die nicht einen Aussage über
eine Person treffen, sondern über die Daten selbst
Werte berücksichtigt die nicht einen Aussage über
eine Person treffen, sondern über die Daten selbst
SCHUFA: Der Wert der Metadaten
- Merkmalsalter (Datum der Kontoeinrichtung, letzte Adressänderung)
- Anfragenzählung (Wie oft werden z.B. Kreditanfragen gestellt)
- Institutszählug (z.B. Anzahl der Konten)
- Anzahl der Voranschriften
- Negativeinträge
- Alter
- Merkmalszählung (wie viele Daten sind vorhanden)
- Geburtsort (binär)
- Geschlecht
Mehr Big Data Scoring:
Big Data Scoring
Kreditech - Geschäftsmodel
Kredite, deren Höhe und Verzinsung dynamisch
bestimmt werde, auf Basis von
Nach Eigenauskunft sind das bis zu 8000 Datenpunkte
bestimmt werde, auf Basis von
Nach Eigenauskunft sind das bis zu 8000 Datenpunkte
Quellen: Kreditech.com und Unternehmensdarstellugen
- Ortsdaten (GPS, mikro-geografische Daten)
- Geräteinformationen (Auflösung, Hersteller)
- Social Graph ("How creditworthy are your friends")
- Behavioural Analytics (Verhalten auf der Webseite)
- Online Shopping verhalten (z.B. eBay)
Kreditech
Nur 10% der Anträge werden bewilligt.
Alle Daten werden gespeichert.
Alle Daten werden gespeichert.
Ziel:
Entwicklung eines allgemeingültigen "Scoring-Models"
und Scoring-As-A-Service.
Nicht das Ziel: Eine große Bank werden
Entwicklung eines allgemeingültigen "Scoring-Models"
und Scoring-As-A-Service.
Nicht das Ziel: Eine große Bank werden
"Long Termin Diversification Strategy"
Quelle: Sebastian Diemer, NOAH 12 (2013) / Youtube
Konflikte mit dem
klassischen Datenschutz-
Verständnis
- Die Einwilligung kann nicht ausreichend
über folgende informieren, da Ergebnisse
noch nicht feststehen. - Für die anonymisierte Zweitverwertung der
Daten braucht es keine Einwilligung.
Einwilligungen beziehen sich auf die
Erhebung zum Geschäftszweck.
Erhebung zum Geschäftszweck.
Einwilligung
Daten werden im Rahmen eines konkreten
Vertrags erhoben.
Vertrags erhoben.
Durch Anonymisierung fallen die Daten aus
dem Regulierungsbereich des Datenschutz
und können für jeglichen Zweck genutzt werden.
dem Regulierungsbereich des Datenschutz
und können für jeglichen Zweck genutzt werden.
Zweckbindung
- Daraus werden weitere Daten "generiert".
- Andere Anbieter erheben so viele Daten
wie (technisch) möglich ist. - "öffentliche" Daten fallen nicht unter die
Datenschutzregulierung
Die SCHUFA arbeitet mit einer
abgeschlossenen Liste von Datenpunkten.
abgeschlossenen Liste von Datenpunkten.
Erforderlichkeit
Für Basisdaten kann (u.U.)
Löschung beantragt werde
Löschung beantragt werde
Die Zuweisungen (Korrelationen) bleiben
erhalten und können bei Wieder-Anmeldung
neu zugewiesen werden.
erhalten und können bei Wieder-Anmeldung
neu zugewiesen werden.
Löschung
Die Auskunft bezieht sich nur auf die
vorhandenen Daten zu dem Zeitpunkt
der Beauskunftung.
vorhandenen Daten zu dem Zeitpunkt
der Beauskunftung.
- Bei dynamischen Modellen ändert sich
ein Score regelmäßig. - Es besteht kein nachvollziehbar kausaler
Zusammenhang zwischen Daten und Score.
Auskunft
- Die Auskunft enthält keine Informationen
über die Funktionsweise der Algorithmen. - Das Ziel des "Wissens was jemand weiß"
wird nicht erreicht. - Score bezieht nicht nur auf Basisdaten
sondern auch Zusatzinformationen
Basisdaten werden korrekt beauskunftet und
können korrigiert werden.
können korrigiert werden.
Transparenz
Verschlüsselung der Daten verhindert
nicht die Auswertung der Meta-Daten
nicht die Auswertung der Meta-Daten
Weiterführender Artikel: Gürses, S., Preneel, B., Berendt, B.: PETs under Surveillance: A Critical review of the potentials
and limitations of the privacy as confidentiality paradigm. Presented at the 2nd Hot Topics in Privacy Enhancing
Technologies (HotPETs 2009). Online verfügbar. Zuletzt abgerufen am 03.01.2014.
and limitations of the privacy as confidentiality paradigm. Presented at the 2nd Hot Topics in Privacy Enhancing
Technologies (HotPETs 2009). Online verfügbar. Zuletzt abgerufen am 03.01.2014.
Daten werden sicher aufbewahrt.
Datensicherheit
"Umgehung" der Regulierung durch
den "Service" (personbezogene Daten werden
nicht weitergegeben)
den "Service" (personbezogene Daten werden
nicht weitergegeben)
Weitergabe der Daten der Daten ohne
Einwilligung ist untersagt.
Einwilligung ist untersagt.
Einschränkungen
Datenschutz ist deutsches Recht (ggf. noch
europäisches)
europäisches)
Die Modelle können auch im Ausland
erhoben ermittelt und hier
angewendet werden
erhoben ermittelt und hier
angewendet werden
Anwendbarkeit
Zusammenfassung (1/2)
Beim Kreditscorings geht es schon lange um Big Data.
Daher gibt es eine ganze Reihe juristischer Regulierungen.
Trotzdem gibt es einen Trend hin zu mehr Daten und
undurchsichtigeren Auswertungen.
Daher gibt es eine ganze Reihe juristischer Regulierungen.
Trotzdem gibt es einen Trend hin zu mehr Daten und
undurchsichtigeren Auswertungen.
Ziel von Unternehmen wie Kreditech ist nicht
der Verkauf von personenbezogenen Daten,
sondern die "Vermietung" des Wissens über Daten,
welches Personen zugewiesen werden kann.
Datenschutz schützt eine Einzelperson vor
ungewollten, missbräuchlichen Nutzung
personenbezogener Daten.
ungewollten, missbräuchlichen Nutzung
personenbezogener Daten.
Für Big Data ist der_die Einzelne nicht als
Datenquelle Interessant, sondern als Datenziel.
"Klassische" Datenschutzregulierung schlägt daher
fehl.
Datenquelle Interessant, sondern als Datenziel.
"Klassische" Datenschutzregulierung schlägt daher
fehl.
Zusammenfassung (1/2)
That's it.
Easycash
Entscheidung über das Zahlungsverfahren anhand gesammelter Daten
PIN Verfahren
Lastschrift Zahlung
0,3 % des Umsatzes,
mindestens 0,08 € pro Zahlungsvorgang
mindestens 0,08 € pro Zahlungsvorgang
0 oder
0,04 € bei Abfrage der Sperrdatei
0,04 € bei Abfrage der Sperrdatei
Quelle: easycash - Info zu Volksbanken, abgerufen am 10.06.2014
Vorteil: Sichere Zahlung
Vorteil: Keine PIN Eingabe (schneller)
¹Achtung, ausgedacht!
Welcher Tag ist heute
In welchem Geschäft
steht die Person
steht die Person
Ist die Karte als
gestohlen gemeldet
gestohlen gemeldet
Gab es mit der Karte schon mal
einen Zahlungsverzug
einen Zahlungsverzug
Karten bezogene Daten
Kontext Informationen¹
Wie hoch ist der Preis?
PIN Verfahren
Lastschriftverfahren
Keine Kartenzahlung
Easycash
Daten die Easycash bekommt
Filiale / Standort
Geschäft
(Lidl, Saturn, Gravis)
(Lidl, Saturn, Gravis)
Kontonummer
Umsatzhöhe
direkt erhobene Daten
Ermittelbare Daten
Art des Geschäfts
(Lebensmittel, Elektronik oder vllt Luxusgüter)
(Lebensmittel, Elektronik oder vllt Luxusgüter)
Bewegungsprofil eine*s Kontoinhaber*in
Sozio-demografische Annahmen
(Berlin-Marzahn vs. München Schwabingen)
(Berlin-Marzahn vs. München Schwabingen)
kombiniert mit Art des Ladens
Fehlbuchungen
Einkommenshöhe
(Kein Geld mehr am Monatsende)
(Kein Geld mehr am Monatsende)
Eigenauskunft Ausschöpfungsgrad der Karte, "Kundenqualität" und Bewegungsprofile
Peter Hornung und Jürgen Webermann: Der Datenkrake von Ratingen NDR.de
vom 23. September 2010; Noch online verfügbar im Webarchive (zuletzt gesehen am 10.06.2014)
vom 23. September 2010; Noch online verfügbar im Webarchive (zuletzt gesehen am 10.06.2014)