dimis linkdump

Der Author des Security-Blog Skullsecurity hat aus Facebook 170 Millionen Datensätze (100 Millionen davon eindeutig) gecrawlt und über BitTorrent bereitgestellt. Einige Auszüge aus den Daten:

10 GB (entpackt) facebook-urls.txt

http://en-us.facebook.com/people/A********/6***5***24

http://en-us.facebook.com/people/Al***-**a*/1**7*0***9*

http://en-us.facebook.com/people/A*******r**n/*68****93*7

Top Vornamen (73 MB Liste an Vornamen):

977014 michael
963693 john
924816 david
819879 chris
640957 mike
602088 james
584438 mark
515686 jason
503658 robert…

Top Nachnamen (91 MB Liste)

913465 smith
571819 johnson
512312 jones
503266 williams
471390 brown
386764 lee
360010 khan
355639 singh…

Zusätzlich werden Listen der Form VNachname (300 MB) VornameN (175 MB) angeboten – sortiert nach Häufigkeit:

129369 jsmith
79365 ssmith
77713 skhan
75561 msmith
74575 skumar
72467 csmith
71791 asmith
67786 jjohnson…

100225 johns
97676 johnm
97310 michaelm
93386 michaels
88978 davids
85481 michaelb
84824 davidm
82677 davidb
81500 johnb
77800 michaelc….

Entstanden sind die Listen, weil der Author diverse Listen für ein neues Bruteforce-Tool (NCrack) erstellen wollte.

Erstellt wurden die Listen einem einfachen Ruby-Script welches dem Packet beiliegt. Mit diesem Script wurde die Facebook-Directory (http://www.facebook.com/directory/) durchsucht. Die erlaubt es Suchmaschinen Profile zu erfassen, die die unten aufgeführten Einstellungen nicht getroffen haben.  Schlicht eine Frage der Bandbreite ist es, auch Freundschaftsbeziehungen, öffentliche Bilder,… in einer Datenbank zu erfassen.

Bisher wurden wohl hauptsächlich amerikanische Profile gecrawlt. Wer sich dem crawlen, zumindest in dieser Form, entziehen will sollte folgende Einstellungen treffen:

Unter Privatsphäre-Einstellungen => Anwendungen und Webseiten => öffentliche Suche, kann die Sichtbarkeit für Suchmaschinen eingestellt werden. Dann erscheint man nicht mehr im Facebook-Directory.

Ein grundsätzlicher Schutz gegen Crawler ist diese Einstellung natürlich nicht – die gibt es aber, will man Facebook nutzen, auch nicht.

Comments are closed.

RSS-Feed Creative Commons License