dimis linkdump

Posts tagged ‘Studivz’

Vorgestern habe ich kurz über die gecrawlten Daten aus Facebook geschrieben.

Heute lese ich, dass sich jemand mal angeschaut hat wer alles Interesse an den Daten hat… sie also herunterläd.  Ist ja kein Problem bei Torrent. Dazu muss man einfach in die Peers gucken:

z.B:

A.C. Nielsen
Agilent Technologies
Apple
AT&T – möglicherweise Macrovision
Baker & McKenzie
BBC
Bertelsmann
Boeing
Cisco Systems
Cox Enterprises
Davis Polk & Wardwell
Deutsche Telekom
Disney
Duracell
Ernst & Young
Fujitsu
Goldman Sachs
Halliburton
HBO & Company
Hilton Hospitality
Hitachi
HP
IBM
Intel
Intuit
Levi Strauss & Co.
Lockheed-Martin Corp
Lucasfilm
Lucent
Lucent Technologies
Matsushita Electric Industrial Co
Mcafee
MetLife
Mitsubishi
Motorola
Northrop Grumman
Novell
Nvidia
O’Melveny & Myers
Oracle Corp
Pepsi Cola
Procter and Gamble
Random House
Raytheon
Road Runner RRWE
Scientology
Seagate
Sega
Siemens AG
SONY CORPORATION
Sprint
Sun Microsystems
Symantec
The Hague
Time Warner Telecom
Turner Broadcasting system
Ubisoft Entertainment
Unisys
Univision
USPS
Vereinte Nationen
Viacom
Vodafone
Wells Fargo
Xerox PARC

Bleibt die Frage was die Unternehmen mit den Daten anstellen wollen. Entweder die haben da Mitarbeiter-PCs stehen, die im BitTorrent hängen oder die PR-/Sonstige-Abteilung hat die Daten bewusst heruntergeladen.

Gelesen bei Gulli

Der Author des Security-Blog Skullsecurity hat aus Facebook 170 Millionen Datensätze (100 Millionen davon eindeutig) gecrawlt und über BitTorrent bereitgestellt. Einige Auszüge aus den Daten:

10 GB (entpackt) facebook-urls.txt

http://en-us.facebook.com/people/A********/6***5***24

http://en-us.facebook.com/people/Al***-**a*/1**7*0***9*

http://en-us.facebook.com/people/A*******r**n/*68****93*7

Top Vornamen (73 MB Liste an Vornamen):

977014 michael
963693 john
924816 david
819879 chris
640957 mike
602088 james
584438 mark
515686 jason
503658 robert…

Top Nachnamen (91 MB Liste)

913465 smith
571819 johnson
512312 jones
503266 williams
471390 brown
386764 lee
360010 khan
355639 singh…

Zusätzlich werden Listen der Form VNachname (300 MB) VornameN (175 MB) angeboten – sortiert nach Häufigkeit:

129369 jsmith
79365 ssmith
77713 skhan
75561 msmith
74575 skumar
72467 csmith
71791 asmith
67786 jjohnson…

100225 johns
97676 johnm
97310 michaelm
93386 michaels
88978 davids
85481 michaelb
84824 davidm
82677 davidb
81500 johnb
77800 michaelc….

Entstanden sind die Listen, weil der Author diverse Listen für ein neues Bruteforce-Tool (NCrack) erstellen wollte.

Erstellt wurden die Listen einem einfachen Ruby-Script welches dem Packet beiliegt. Mit diesem Script wurde die Facebook-Directory (http://www.facebook.com/directory/) durchsucht. Die erlaubt es Suchmaschinen Profile zu erfassen, die die unten aufgeführten Einstellungen nicht getroffen haben.  Schlicht eine Frage der Bandbreite ist es, auch Freundschaftsbeziehungen, öffentliche Bilder,… in einer Datenbank zu erfassen.

Bisher wurden wohl hauptsächlich amerikanische Profile gecrawlt. Wer sich dem crawlen, zumindest in dieser Form, entziehen will sollte folgende Einstellungen treffen:

Unter Privatsphäre-Einstellungen => Anwendungen und Webseiten => öffentliche Suche, kann die Sichtbarkeit für Suchmaschinen eingestellt werden. Dann erscheint man nicht mehr im Facebook-Directory.

Ein grundsätzlicher Schutz gegen Crawler ist diese Einstellung natürlich nicht – die gibt es aber, will man Facebook nutzen, auch nicht.

Im letzten Blogartikel ging es um Wireshark – einen Netzwerksniffer. Heute will ich einen weiteren Netzwerksniffer vorstellen: NetworkMiner. Dieser Sniffer bezeichnet sich selbst als NFAT (Network Forensic Analysis Tool). Anders als Wireshark legt NetworkMiner nicht den Schwerpunkt auf die Darstellung der einzelnen Pakete, sondern darauf die Kommunikation als Gesamtes darzustellen.

Voraussetzungen für das erfolgreiche Ausführen des portablen Programms ist ein installiertes .net-Framework. Um Datenverkehr live mitzuschneiden benötigt man noch Winpcap, alternativ kann das Programm auch über RAW-Sockets den Datenverkehr mitschneiden.

NetworkMinerNetworkMiner selbst ist in diverse Reiter unterteilt. Im ersten Reiter werden die bei der Netzwerkkommunikation involvierten Partner angezeigt. Besonders interessant dabei: Die bei der Kommunikation verwendeten Ports werden hier pro System als “open ports” aufgelistet. Außerdem werden auch, wie auf dem Bild schon ersichtlich, die verschiedenen Hostnamen je IP angegeben. Zusätzlich versucht NetworkMiner die Betriebssysteme der verschiedenen Hosts zu identifizieren. Je nach Betriebssystem wird ein anderes Symbol für den Host verwendet. (2)

Im dritten Reiter wird die Sache wirklich interessant. Hier werden alle Dateien angezeigt, die über die diversen Anwendungsprotokolle auf den PC geladen wurden. Im folgenden Beispiel sieht man, dass über HTTP (HTTPGetNormal) diverse Dateien, z.B. die index.html,NetworkMiner logo.gif oder ein rss-Feed-Update (rss2.xml) heruntergeladen wurden. Ebenso erkennt man, dass über FTP die mirc60.exe heruntergeladen wurde. Zudem werden die heruntergeladenen öffentlichen Zertifikate angezeigt.
Besonders hervorzugeben: Über einen Rechtsklick auf einen Eintrag, kann diese Datei angezeigt oder geöffnet werden. D.h. im Hintergrund stellt NetworkMiner die Dateien aus dem genifften Verkehr wieder her und speichert diese auf der Festplatte ab. So ist es besonders einfach möglich aus Mitschnitten Dateien und ganze Webseiten etc, zu rekonstruieren.

NetworkMinerUnter dem Reiter “Images” können, das lässt sich schon vermuten, die mitgeschnittenen Bilder angezeigt werden. An dieser Stelle möchte ich nochmal an meinen letzten Blog-Artikel verweisen. Darin ging unter anderem auch darum, wie man “geschützte” Bilder von *VZ herunterlädt. Im NetzworkMiner lässt sich dieser Schritt natürlich schnell und problemlos erledigen, da Thumbnail sowie Vollbild in diesem Reiter angezeigt werden.

Der Reiter “Credentials” findet man z.B. die Login-Daten von unverschlüsselten FTP-Verbindungen oder PHP-Session-IDs. Eben alles was so zu Authentifizierung gehört.

Fazit: Ich bin wirklich begeistert von diesem Tool. Vor allem, dass die Dateien aus dem Mitschnitt des Netzwerkverkehr  wieder zusammengesetzt werden finde ich besonders super.  Ein Blick und einausführlicher Test lohnen sich.

Download und weiter Informationen:

http://sourceforge.net/projects/networkminer/

In Wireshark gibt es die Möglichkeit die mitgeschnittenen Daten aus dem Mitschnitt wieder zusammenzusetzen.  Das bedeutet man lauscht auf einer Leitung mit, speichert den Mitschnitt und kann anschließend einfach die besuchten Webseiten rekonstuieren.

Wie der Datenexport funktioniert will ich an 2 Beispielen demonstrieren.

1) Youtube-Video herunterladen

Mit dem eben erwähnten Feature in Wireshark ist es relativ einfach ein Video von Youtube herunterzuladen. Dazu starten wir zunächst Wireshark und anschließend lassen wir Wireshark alles mitschneiden, was in den nächsten Sekunden im Netzwerk passiert. Wenn der Mitschnitt läuft sollten zunächst nicht viele Pakete gelistet werden. Evtl. mal ein ARP-Paket oder andere Broadcasts. Diese können wir aber irgnorieren.

Youtube-Videos herunterladen mit Wireshark

Youtube-Videos herunterladen mit Wireshark

Anschließend starten wir die “HTTP objekt list”. Diese ist unter “File => Export => Objekts => HTTP” zu finden. In diesem Fenster werden wir gleich alle über HTTP angefragten Objekte wiederfinden. Nun besuchen wir Youtube und schauen uns das Video an, welches wir herunterladen wollen.

Im HTTP objekt list-Fenster erscheint nun, nachdem das Video vollständig geladen wurde, neben einigen Bildern und HTML-Dateien, ein Eintrag bei dem in der Spalte “Content Type” “video/x-flv” steht. Dieser Eintrag entspricht dem Youtube-Video.

Indem wir den Eintrag markieren und mittels “Save As” abspeichern können wir das eben angeschaute Video exportieren und haben es somit als flv-Datei auf dem PC.

Dieses Verfahren funktioniert natürlich auf allen Streaming-Seiten. Evtl. variiert der Mime-Type (video/x-flv), der Vorgang bleibt aber der Selbe.

2) geschützte Bilder herunterladen

Manche kennen vielleicht das Problem: Da hat jemand, natürlich ohne zu fragen, einige Bilder vom letzten Freitag Abend bei *VZ (MeinVZ, StudiVZ, SchülerVZ,…) eingestellt. Nicht nur, dass man nicht gefragt wurde – nein, *VZ hat einen Mechanismus eingebaut, dass man diese Bilder nicht einfach per “Rechtsklick” -> “Speichern unter” herunterladen kann. Man kann also nichtmal die Bilder, auf denen man im Internet verewigt wurde, auf den eigene PC herunterladen.

Mit Wireshark aus StudiVZ Bilder herunterladen

Mit Wireshark aus StudiVZ Bilder herunterladen

Auch dieses Problem lässt sich mit der oben schon vorgeführten Technik umgehen. Dazu startet man wieder den Mitschnitt und das “HTTP objekt list”-Fenster und klickt anschließend das gewünschte Bild im *VZ an. Die große Version des Bilds wird nun geladen und unser “HTTP objekt list”-Fenster füllt sich.

Danach kann man im “HTTP objekt list”-Fenster einfach nach einem Eintrag mit Content Type “image/jpeg” und entsprechender Größe schauen. Abspeichern. Fertig.

RSS-Feed Creative Commons License