dimis linkdump

Vorgestern habe ich kurz über die gecrawlten Daten aus Facebook geschrieben.

Heute lese ich, dass sich jemand mal angeschaut hat wer alles Interesse an den Daten hat… sie also herunterläd.  Ist ja kein Problem bei Torrent. Dazu muss man einfach in die Peers gucken:

z.B:

A.C. Nielsen
Agilent Technologies
Apple
AT&T – möglicherweise Macrovision
Baker & McKenzie
BBC
Bertelsmann
Boeing
Cisco Systems
Cox Enterprises
Davis Polk & Wardwell
Deutsche Telekom
Disney
Duracell
Ernst & Young
Fujitsu
Goldman Sachs
Halliburton
HBO & Company
Hilton Hospitality
Hitachi
HP
IBM
Intel
Intuit
Levi Strauss & Co.
Lockheed-Martin Corp
Lucasfilm
Lucent
Lucent Technologies
Matsushita Electric Industrial Co
Mcafee
MetLife
Mitsubishi
Motorola
Northrop Grumman
Novell
Nvidia
O’Melveny & Myers
Oracle Corp
Pepsi Cola
Procter and Gamble
Random House
Raytheon
Road Runner RRWE
Scientology
Seagate
Sega
Siemens AG
SONY CORPORATION
Sprint
Sun Microsystems
Symantec
The Hague
Time Warner Telecom
Turner Broadcasting system
Ubisoft Entertainment
Unisys
Univision
USPS
Vereinte Nationen
Viacom
Vodafone
Wells Fargo
Xerox PARC

Bleibt die Frage was die Unternehmen mit den Daten anstellen wollen. Entweder die haben da Mitarbeiter-PCs stehen, die im BitTorrent hängen oder die PR-/Sonstige-Abteilung hat die Daten bewusst heruntergeladen.

Gelesen bei Gulli

Der Author des Security-Blog Skullsecurity hat aus Facebook 170 Millionen Datensätze (100 Millionen davon eindeutig) gecrawlt und über BitTorrent bereitgestellt. Einige Auszüge aus den Daten:

10 GB (entpackt) facebook-urls.txt

http://en-us.facebook.com/people/A********/6***5***24

http://en-us.facebook.com/people/Al***-**a*/1**7*0***9*

http://en-us.facebook.com/people/A*******r**n/*68****93*7

Top Vornamen (73 MB Liste an Vornamen):

977014 michael
963693 john
924816 david
819879 chris
640957 mike
602088 james
584438 mark
515686 jason
503658 robert…

Top Nachnamen (91 MB Liste)

913465 smith
571819 johnson
512312 jones
503266 williams
471390 brown
386764 lee
360010 khan
355639 singh…

Zusätzlich werden Listen der Form VNachname (300 MB) VornameN (175 MB) angeboten – sortiert nach Häufigkeit:

129369 jsmith
79365 ssmith
77713 skhan
75561 msmith
74575 skumar
72467 csmith
71791 asmith
67786 jjohnson…

100225 johns
97676 johnm
97310 michaelm
93386 michaels
88978 davids
85481 michaelb
84824 davidm
82677 davidb
81500 johnb
77800 michaelc….

Entstanden sind die Listen, weil der Author diverse Listen für ein neues Bruteforce-Tool (NCrack) erstellen wollte.

Erstellt wurden die Listen einem einfachen Ruby-Script welches dem Packet beiliegt. Mit diesem Script wurde die Facebook-Directory (http://www.facebook.com/directory/) durchsucht. Die erlaubt es Suchmaschinen Profile zu erfassen, die die unten aufgeführten Einstellungen nicht getroffen haben.  Schlicht eine Frage der Bandbreite ist es, auch Freundschaftsbeziehungen, öffentliche Bilder,… in einer Datenbank zu erfassen.

Bisher wurden wohl hauptsächlich amerikanische Profile gecrawlt. Wer sich dem crawlen, zumindest in dieser Form, entziehen will sollte folgende Einstellungen treffen:

Unter Privatsphäre-Einstellungen => Anwendungen und Webseiten => öffentliche Suche, kann die Sichtbarkeit für Suchmaschinen eingestellt werden. Dann erscheint man nicht mehr im Facebook-Directory.

Ein grundsätzlicher Schutz gegen Crawler ist diese Einstellung natürlich nicht – die gibt es aber, will man Facebook nutzen, auch nicht.

RSS-Feed Creative Commons License