dimis linkdump

Posts tagged ‘Datenbank’

Vorgestern habe ich kurz über die gecrawlten Daten aus Facebook geschrieben.

Heute lese ich, dass sich jemand mal angeschaut hat wer alles Interesse an den Daten hat… sie also herunterläd.  Ist ja kein Problem bei Torrent. Dazu muss man einfach in die Peers gucken:

z.B:

A.C. Nielsen
Agilent Technologies
Apple
AT&T – möglicherweise Macrovision
Baker & McKenzie
BBC
Bertelsmann
Boeing
Cisco Systems
Cox Enterprises
Davis Polk & Wardwell
Deutsche Telekom
Disney
Duracell
Ernst & Young
Fujitsu
Goldman Sachs
Halliburton
HBO & Company
Hilton Hospitality
Hitachi
HP
IBM
Intel
Intuit
Levi Strauss & Co.
Lockheed-Martin Corp
Lucasfilm
Lucent
Lucent Technologies
Matsushita Electric Industrial Co
Mcafee
MetLife
Mitsubishi
Motorola
Northrop Grumman
Novell
Nvidia
O’Melveny & Myers
Oracle Corp
Pepsi Cola
Procter and Gamble
Random House
Raytheon
Road Runner RRWE
Scientology
Seagate
Sega
Siemens AG
SONY CORPORATION
Sprint
Sun Microsystems
Symantec
The Hague
Time Warner Telecom
Turner Broadcasting system
Ubisoft Entertainment
Unisys
Univision
USPS
Vereinte Nationen
Viacom
Vodafone
Wells Fargo
Xerox PARC

Bleibt die Frage was die Unternehmen mit den Daten anstellen wollen. Entweder die haben da Mitarbeiter-PCs stehen, die im BitTorrent hängen oder die PR-/Sonstige-Abteilung hat die Daten bewusst heruntergeladen.

Gelesen bei Gulli

Der Author des Security-Blog Skullsecurity hat aus Facebook 170 Millionen Datensätze (100 Millionen davon eindeutig) gecrawlt und über BitTorrent bereitgestellt. Einige Auszüge aus den Daten:

10 GB (entpackt) facebook-urls.txt

http://en-us.facebook.com/people/A********/6***5***24

http://en-us.facebook.com/people/Al***-**a*/1**7*0***9*

http://en-us.facebook.com/people/A*******r**n/*68****93*7

Top Vornamen (73 MB Liste an Vornamen):

977014 michael
963693 john
924816 david
819879 chris
640957 mike
602088 james
584438 mark
515686 jason
503658 robert…

Top Nachnamen (91 MB Liste)

913465 smith
571819 johnson
512312 jones
503266 williams
471390 brown
386764 lee
360010 khan
355639 singh…

Zusätzlich werden Listen der Form VNachname (300 MB) VornameN (175 MB) angeboten – sortiert nach Häufigkeit:

129369 jsmith
79365 ssmith
77713 skhan
75561 msmith
74575 skumar
72467 csmith
71791 asmith
67786 jjohnson…

100225 johns
97676 johnm
97310 michaelm
93386 michaels
88978 davids
85481 michaelb
84824 davidm
82677 davidb
81500 johnb
77800 michaelc….

Entstanden sind die Listen, weil der Author diverse Listen für ein neues Bruteforce-Tool (NCrack) erstellen wollte.

Erstellt wurden die Listen einem einfachen Ruby-Script welches dem Packet beiliegt. Mit diesem Script wurde die Facebook-Directory (http://www.facebook.com/directory/) durchsucht. Die erlaubt es Suchmaschinen Profile zu erfassen, die die unten aufgeführten Einstellungen nicht getroffen haben.  Schlicht eine Frage der Bandbreite ist es, auch Freundschaftsbeziehungen, öffentliche Bilder,… in einer Datenbank zu erfassen.

Bisher wurden wohl hauptsächlich amerikanische Profile gecrawlt. Wer sich dem crawlen, zumindest in dieser Form, entziehen will sollte folgende Einstellungen treffen:

Unter Privatsphäre-Einstellungen => Anwendungen und Webseiten => öffentliche Suche, kann die Sichtbarkeit für Suchmaschinen eingestellt werden. Dann erscheint man nicht mehr im Facebook-Directory.

Ein grundsätzlicher Schutz gegen Crawler ist diese Einstellung natürlich nicht – die gibt es aber, will man Facebook nutzen, auch nicht.

Zensus 2011

Mai 27th, 2010

Von der Opposition vernachlässigt, von den Medien totgeschwiegen und den Betroffenen unbekannt – Zensus 2011.

Kaum jemand weiß von der europaweiten Volkszählung im nächsten Jahr. Grund dafür ist vor allem, dass kaum ein Nachrichtenmagazin in der letzten Zeit davon berichtet hat. Beim Spiegel sind die aktuellsten Meldungen aus dem Jahr 11/2008. Ähnlich sieht es bei zeit.de aus. Bei der sueddeutschen ist der letzte von zwei Artikeln immerhin auf 04/2009 datiert.

Das wird daran liegen, dass keine politische Partei, auch nicht die Bündnis 90 – “1987: nur Schafe lassen sich zählen”- Grünen, den Zensus auf die politische Tagesordnung oder ins Mediengeschehen eingebracht hat.

Doch wann erfährt die deutsche Bevölkerung von der Volkszählung? Am 09.05.2011 um 20.00 Uhr in der tagesschau – da heisst es dann: “Stichtag! Heute war Volkszählung in Deutschland”. Ob dann der Aufschrei kommt?  Erstaunt werden sicher einige sein, denn einen Fragebogen wie 1987 müssen nur ganz wenige ausfüllen.

Das ganze nennt sich registerbasierte Volkszählung. Dabei geht es eigentlich nur um die Zusammenführung von einigen großen Bundes- und Landesdatenbanken in denen die gefragten Informationen zu finden sind.

Aus folgenden Datenbanken kommen folgende Datensätze in die Zensusdatenbank:

Aus den Meldebehörden-Datenbanken kommt:

  1. Ordnungsnummer im Melderegister,
  2. Familienname, frühere Namen und Vornamen,
  3. Straße, Straßenschlüssel, Hausnummer und Anschriftenzusätze,
  4. Wohnort, Postleitzahl und amtlicher Gemeindeschlüssel,
  5. Tag der Geburt,
  6. Standesamt und Nummer des Geburtseintrags,
  7. Geburtsort einschließlich erläuternder Zugehörigkeitsbezeichnungen,
  8. bei im Ausland Geborenen: Geburtsstaat,
  9. Geschlecht,
  10. Staatsangehörigkeiten,
  11. Familienstand,
  12. Wohnungsstatus (alleinige Wohnung, Haupt- oder Nebenwohnung),
  13. Anschrift und Wohnungsstatus in der Gemeinde, aus der die Person zugezogen ist,
  14. Anschrift der zuletzt bewohnten Wohnung in der Gemeinde,
  15. Tag des Beziehens der Wohnung,
  16. Tag des Zuzugs in die Gemeinde,
  17. Herkunftsstaat bei Zuzug aus dem Ausland,
  18. Tag der Anmeldung bei der Meldebehörde,
  19. Tag des Wohnungsstatuswechsels,
  20. Familienname, frühere Namen, Vornamen, Tag der Geburt und Ordnungsnummer des Ehegatten oder des eingetragenen Lebenspartners oder der eingetragenen Lebenspartnerin,
  21. Familienname, frühere Namen, Vornamen, Tag der Geburt und Ordnungsnummer der minderjährigen Kinder sowie Familienname, Vornamen, Tag der Geburt, Schlüssel und Ordnungsnummer der gesetzlichen Vertreter,
  22. Tag der letzten Eheschließung oder Begründung der letzten eingetragenen Lebenspartnerschaft,
  23. Tag der Auflösung der letzten Ehe oder letzten eingetragenen Lebenspartnerschaft,
  24. Anschrift des Wohnungsgebers,
  25. Information über freiwillige Anmeldung im Melderegister,
  26. Übermittlungssperre nebst Grund der Übermittlungssperre,
  27. rechtliche Zugehörigkeit zu einer öffentlich-rechtlichen Religionsgesellschaft.

Aus der Datenbank Bundesagentur für Arbeit kommt:

  • von allen sozialversicherungspflicht Beschäftigten und geringfügig Entlohnten:
  1. Arbeitsort (amtlicher Gemeindeschlüssel),
  2. Wirtschaftszweig,
  3. Betriebsnummer der Arbeitsstätte,
  4. Ausbildung,
  5. ausgeübter Beruf,
  6. Status der Beschäftigten (beschäftigt oder geringfügig beschäftigt),
  • von allen arbeitslos gemeldeten:
  1. Status (arbeitslos, nicht arbeitslos aber Arbeit suchend, nicht zu aktivieren),
  2. höchster erreichter Schulabschluss,
  3. letzte abgeschlossene Berufsausbildung,
  • von allen Teilnehmern von Maßnahmen der Arbeitsförderung:
  1. Art der Maßnahme (soweit von Bedeutung für die Erfassung der Erwerbstätigkeit),
  2. höchster erreichter Schulabschluss,
  3. letzte abgeschlossene Berufsausbildung,

Und damit man die Leute auch den Daten aus der Meldebehörden-Datenbank zuordnen kann, für jeden aus den oben genannten 3 Gruppen (s.g. Hilfsmerkmale):

  1. Wohnort, Postleitzahl und amtlicher Gemeindeschlüssel,
  2. Straße, Hausnummer und Anschriftenzusätze,
  3. Familienname und Vornamen,
  4. Geschlecht,
  5. Tag der Geburt.

Achtung: Bisher hat keiner von uns auch nur eine Zeile auf dem Fragebogen ausgefüllt!

Bei den Wohnungs- und Hauseigentümern werden dann folgende Daten erfragt:

  • für Gebäude:
  1. Gemeinde, Postleitzahl und amtlicher Gemeindeschlüssel,
  2. Art des Gebäudes,
  3. Eigentumsverhältnisse,
  4. Gebäudetyp,
  5. Baujahr,
  6. Heizungsart,
  7. Zahl der Wohnungen,
  • für Wohnungen:
  1. Art der Nutzung,
  2. Eigentumsverhältnisse,
  3. Wohnung nicht meldepflichtiger Personen, soweit bekannt,
  4. Fläche der Wohnung,
  5. WC,
  6. Badewanne oder Dusche,
  7. Zahl der Räume.

Hilfsmerkmale sind wieder:

  1. Familienname, frühere Namen, Vornamen und Anschrift der Auskunftspflichtigen,
  2. Telekommunikationsnummern der Auskunftspflichtigen oder einer anderen Person, die für Rückfragen zur Verfügung steht,
  3. Namen und Vornamen von bis zu zwei Wohnungsnutzern je Wohnung,
  4. soweit bekannt: Zahl der Bewohner je Wohnung,
  5. Straße, Hausnummer und Anschriftenzusätze der Wohnung.

Außerdem gibt es dann noch einige Stichproben, die per Fragebogen oder per Befragung durchgeführt werden.

Die oben genannten Punkte stammen aus Quelle [1].

Kritisch wird es jetzt:

1) Bei der Erhebung erfolgt keine Anonymisierung. Die Daten werden zunächst vollständig in der großen Zensus-Datenbank gespeichert, inklusive aller Hilfsmerkmale. (siehe oben). So schnell wie möglich,  spätestens aber nach 4 Jahren erfolgt eine Anonymisierung der Daten (Also die Löschung der Hilfsmerkmale) – §19 Absatz (1), ZensG 2011.

2) Übermittlungssperre (aus der Datenbank der Meldebehörden) inklusive Grund wird in der Zensusdatenbank gespeichert.

Besonders hervorzuheben ist hierbei, aus welchem Grund diese sensiblen Daten übertragen werden:

Das Merkmal „Übermittlungssperre nebst Grund der Übermittlungssperre“ ist erforderlich, um Personen mit Auskunftssperre nach § 21 Absatz 5 MRRG (wie bei Personen, denen Gefahren für Leben, Gesundheit, Freiheit oder ähnlich hochrangige Rechtsgüter drohen) einerseits zu zählen, andererseits aber auch dem Schutzbedürfnis der Betroffenen bei den Erhebungen des Zensus Rechnung tragen zu können.

Quelle [1]

Bleibt zu hoffen, dass die Bevölkerung frühzeitig informiert und nicht am Mai 2011 vor vollendete Tatsachen gestellt wird.

Immerhin kann eine Totalerhebung durchaus auch Vorteile bieten – ohne Diskussion darüber können aber Vor- und Nachteile nicht gegeneinander abgewogen werden.

Weitere Informationen

[1] Text des Zensusgesetz 2011 einschließlich Begründung

SIGINT 2010 – Unter dem Radar: Das Zensusgesetz 2010

Zensus 2011 – Zusammenfassung von Tobias Kalder

RSS-Feed Creative Commons License