[halLEipzig] Stammtisch

graebe graebe at informatik.uni-leipzig.de
Mi Mai 21 12:33:54 CEST 2014


Hallo allerseits,

ein paar Nachbemerkungen zu gestern und der Beziehung zu leipzig-data.de.

In Leipzig kenne ich neben OSM aktuell wenigstens drei weitere Projekte, 
die sich offenen Daten verschrieben haben:

* die AKSW-Gruppe <http://aksw.org/About.html>, eng mit OKFN 
<http://okfn.de/> verbunden
* <http://leipzig-data.de> und
* OK-Lab Leipzig, siehe <http://www.leipzig-data.de/ok-lab-leipzig/>

Es werden dabei verschiedene Datenformate verfolgt, neben OSM-Daten 
insbesondere RDF (von leipzig-data.de und aksw.org), da dies der Linked 
Data Standard ist. Damit lassen sich sehr heterogen strukturierte 
Informationen auf einheitliche Weise darstellen, das gestern diskutierte 
Problem der "Stolpersteine" ließe sich in RDF deutlich einfacher behandeln.

RDF-Daten kommen mit zwei technischen Aspekten - RDF-Store (die 
Datenbank-Engine) und RDF-Anfragesprache (SPARQL) samt Anfragepunkt 
(SPARQL Endpunkt). Wir verwenden hier Virtuoso (und optional darauf 
aufsetzend OntoWiki) und haben dafür zum einen Beschreibungen für 
Standardinstallationen auf dem localhost (siehe 
<http://symbolicdata.org/wiki/LocalSparqlEndpoint>) und zum anderen 
betreiben wir diese Infrastruktur auch öffentlich, siehe 
<http://www.leipzig-data.de/leipzig-data/>.

So weit Vorbemerkungen, die erforderlich waren, um das gestrige Thema 
der Adressen genauer zu erläutern:

Unter <http://leipzig-data.de/Data/Adressen/> sind 65207 Adressen der 
Stadt Leipzig als URIs verfügbar (aus dem API-Leipzig Datenbestand 2012, 
erweitert um Adressen, die uns danach "über den Weg" gelaufen sind). 
Dazu wurden mit nominatim von Claus Stadler (Projekt LinkedGeoData 
<http://aksw.org/Projects/LinkedGeoData.html>) Geo-Daten extrahiert, die 
unter <http://leipzig-data.de/Data/GeoDaten/> verfügbar sind.  Der 
Vorteil des Zugangs ist, dass man alle Stories über Leipzig, die man bis 
auf eine solche Adresse herunterbrechen kann, auch auf einem Geo-Layer 
über einer beliebigen Karte darstellen kann, die Frage der Qualität der 
Geodaten also nur einmal steht.

Wie man das verwenden kann, sieht man z.B. an der folgenden 
SPARQL-Anfrage (die auch json zurückliefern kann) an unseren Endpunkt 
<http://www.leipzig-data.de:8890/sparql>:

----------------------------------
PREFIX ld: <http://leipzig-data.de/Data/Model/>
PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#>
PREFIX geonames: <http://www.geonames.org/ontology#>
SELECT distinct ?a ?long ?lat ?way WHERE {
   ?a a ld:Adresse .
   ?a geo:lat ?lat .
   ?a geo:long ?long .
   ?a geonames:nearbyFeatures ?way .
   filter regex(?a, "Tierkliniken")
}
----------------------------------

Am Ergebnis sieht man auch, was nominatim wohl macht - es sucht ein 
geeignetes OSM-Objekt (node, way, relation) heraus und berechnet daraus 
die Punktkoordinaten, die gespeichert werden. An den Tierkliniken sieht 
man auch, dass hier für viele Adressen dasselbe Objekt gewählt wurde und 
folglich auch dieselben Geokoordinaten berechnet wurden.

Das kann man ebenfalls abfragen:
----------------------------------
PREFIX ld: <http://leipzig-data.de/Data/Model/>
PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#>
SELECT distinct ?lat ?long count(distinct ?e) as ?s WHERE {
   ?e a ld:Adresse .
   ?e geo:lat ?lat .
   ?e geo:long ?long .
} order by desc(?s)
----------------------------------
Spitzenreiter sind die Koordinaten (51.298494, 12.3272934), die 190 
Adressen zugeordnet ist. Datenqualität erhöhen bedeutet also, diese 
Ambiguitäten auflösen (oder mglw. besser zu verstehen, was eine Adresse 
ist).

Andererseits gibt es Adressen, die keine Geokoordinaten haben (meist, 
weil sie später hinzugefügt wurden, Claus immer wieder versprochen hat, 
das noch mal durch Nominatim zu jagen, das aber bisher nicht passiert 
ist). Auch hierzu die relevante Anfrage:

----------------------------------
PREFIX ld: <http://leipzig-data.de/Data/Model/>
PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#>
SELECT count(distinct ?e) WHERE {
   ?e a ld:Adresse .
   optional {?e geo:lat ?l . }
   filter (!bound(?l))
}
----------------------------------

Derzeit 2163 Adressen.

Es wäre spannend, hier an beiden Fronten (Hausnummern in OSM und 
Geo-Koordinaten in leipzig-data.de) weiterzukommen.

hgg

-- 

   Dr. Hans-Gert Graebe, apl. Prof., Inst. Informatik, Univ. Leipzig
   postal address: Postfach 100920, D-04009 Leipzig
   Hausanschrift: Augustusplatz 10, 04109 Leipzig, Raum P-633	
   tel. : +49-341-97-32248
   email: graebe at informatik.uni-leipzig.de
   Home Page: http://www.informatik.uni-leipzig.de/~graebe