Artikel

Geo-Daten-Visualisierung in R

Geo-Daten-Visualisierung in R

R ist eine dynamische und funktionale Programmiersprache, die als Teil des sogenannten GNU-Projektes frei und öffentlich zur Verfügung steht. Die Sprache hat eine breite Community; Millionen von Nutzern arbeiten permanent an einer Verbesserung des Codes. Seit den Anfängen von R in den frühen 90er Jahren entstanden so zahlreiche frei verfügbare Pakete, deren Funktionen statistische Analysen mit sehr übersichtlichem Code ermöglichen. Insbesondere Machine Learning-Verfahren können so deutlich schneller umgesetzt werden, als das beispielsweise mit Python der Fall ist.

Daten entfalten ihre Wirkung meist am besten, wenn sie grafisch dargestellt werden. Insbesondere gilt dies für Daten, die einen geografischen Bezug haben. Für Geo-Daten bietet CRAN1 zahlreiche Pakete von denen ggmap das wahrscheinlich bekannteste ist.  Dieses bietet eine große Menge von Funktionen, um Geo-Daten zu visualisieren oder um statistische Modelle auf statischen Karten darzustellen. Diese statischen Karten können mithilfe des Pakets aus Quellen wie Google Maps oder Stamen Maps aufgerufen werden. Die Namensähnlichkeit zum populären Visualisierungs-Paket ggplot2 ist dabei kein Zufall, funktionieren beide doch ähnlich: Zunächst wird eine Oberfläche kreiert oder gewählt, anschließend werden Graphen oder Flächen darauf angewendet.

Abbildung 1: Beispielhafte Choroplettenkarte - Darstellung der Bildungsausgaben in Europa

Bei der Visualisierung von Daten auf Google Maps mithilfe von ggmap kommt vor allem den sogenannten Choropleth Maps, zu Deutsch Choroplettenkarten, eine besondere Bedeutung zu. Dabei werden Gebiete im Verhältnis zur Dichte oder Größe einer betrachteten Variable eingefärbt, schraffiert, gepunktet oder schattiert. Die dargestellten Daten beziehen sich dabei nicht auf einen einzelnen Ort, sondern stehen für eine Raumbezugseinheit wie Staaten, Bundesländer oder Gemeinden. Beispielhaft für Choroplettenkarten sind oben die Bildungsausgaben jedes europäischen Landes als prozentualer Anteil des Bruttoinlandsprodukts dargestellt. Dabei ist die Farbe des Landes umso dunkler je geringer die Ausgaben sind.

Abbildung 2: Beispielhafte Darstellung punktueller Geo-Daten - Morde in Houston, Texas, USA

Neben Flächendaten können auch punktuelle Daten visualisiert werden. Oben wird dies dargestellt mit den Mordfällen in Houston im Januar 2010. Die Voraussetzung für diese Visualisierungen sind die geographischen Koordinaten eines Objektes. Diese werden als Latitude (Lage auf den Breitengraden) und als Longitude (Lage auf den Längengraden) bezeichnet. Für die korrekte Verwendung der Daten müssen diese im Klassenformat numeric vorliegen und je nach benutztem Paket bestimmte Variablennamen tragen.

Abbildung 3: Visualisierung der verschiedenen deutschen Administrationsebenen auf GADM

Wenn es um das Visualisieren von Geo-Daten in R geht, darf aber auch GADM nicht unerwähnt bleiben. Das Akronym steht für die Database of Global Administrative Areas. Dabei handelt es sich um eine Datenbank hochaufgelöster Karten aller Gebiete der Erde mit dem Ziel diese von allen Ländern, auf allen administrativen Ebenen und aus jeder Epoche zur Verfügung zu stellen. Derzeit hat GADM eine höhere Auflösung als jede andere frei verfügbare Geo-Datenbank, auch höher als kommerzielle Angebote wie beispielsweise ArcGIS. Über das Paket raster können die Daten aus GADM über einen einfachen Befehl zur Nutzung in R überführt werden.

Ähnlich kann auch das R-Paket rgdal genutzt werden, das als Interface zur Geospatial Abstraction Library (GDAL) dient. Die frei verfügbare Programmbibliothek wurde in C und C++ entwickelt und enthält Vektordaten für Geo-Objekte.

CRAN = Comprehensive R-Network, ein weltweites Netzwerk frei verfügbarer Pakete zur Nutzung in R

Sie möchten mehr Informationen zu R oder Visualisierung von Geo-Daten in R erhalten?