[halLEipzig] Stammtisch
graebe
graebe at informatik.uni-leipzig.de
Mi Mai 21 12:33:54 CEST 2014
Hallo allerseits,
ein paar Nachbemerkungen zu gestern und der Beziehung zu leipzig-data.de.
In Leipzig kenne ich neben OSM aktuell wenigstens drei weitere Projekte,
die sich offenen Daten verschrieben haben:
* die AKSW-Gruppe <http://aksw.org/About.html>, eng mit OKFN
<http://okfn.de/> verbunden
* <http://leipzig-data.de> und
* OK-Lab Leipzig, siehe <http://www.leipzig-data.de/ok-lab-leipzig/>
Es werden dabei verschiedene Datenformate verfolgt, neben OSM-Daten
insbesondere RDF (von leipzig-data.de und aksw.org), da dies der Linked
Data Standard ist. Damit lassen sich sehr heterogen strukturierte
Informationen auf einheitliche Weise darstellen, das gestern diskutierte
Problem der "Stolpersteine" ließe sich in RDF deutlich einfacher behandeln.
RDF-Daten kommen mit zwei technischen Aspekten - RDF-Store (die
Datenbank-Engine) und RDF-Anfragesprache (SPARQL) samt Anfragepunkt
(SPARQL Endpunkt). Wir verwenden hier Virtuoso (und optional darauf
aufsetzend OntoWiki) und haben dafür zum einen Beschreibungen für
Standardinstallationen auf dem localhost (siehe
<http://symbolicdata.org/wiki/LocalSparqlEndpoint>) und zum anderen
betreiben wir diese Infrastruktur auch öffentlich, siehe
<http://www.leipzig-data.de/leipzig-data/>.
So weit Vorbemerkungen, die erforderlich waren, um das gestrige Thema
der Adressen genauer zu erläutern:
Unter <http://leipzig-data.de/Data/Adressen/> sind 65207 Adressen der
Stadt Leipzig als URIs verfügbar (aus dem API-Leipzig Datenbestand 2012,
erweitert um Adressen, die uns danach "über den Weg" gelaufen sind).
Dazu wurden mit nominatim von Claus Stadler (Projekt LinkedGeoData
<http://aksw.org/Projects/LinkedGeoData.html>) Geo-Daten extrahiert, die
unter <http://leipzig-data.de/Data/GeoDaten/> verfügbar sind. Der
Vorteil des Zugangs ist, dass man alle Stories über Leipzig, die man bis
auf eine solche Adresse herunterbrechen kann, auch auf einem Geo-Layer
über einer beliebigen Karte darstellen kann, die Frage der Qualität der
Geodaten also nur einmal steht.
Wie man das verwenden kann, sieht man z.B. an der folgenden
SPARQL-Anfrage (die auch json zurückliefern kann) an unseren Endpunkt
<http://www.leipzig-data.de:8890/sparql>:
----------------------------------
PREFIX ld: <http://leipzig-data.de/Data/Model/>
PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#>
PREFIX geonames: <http://www.geonames.org/ontology#>
SELECT distinct ?a ?long ?lat ?way WHERE {
?a a ld:Adresse .
?a geo:lat ?lat .
?a geo:long ?long .
?a geonames:nearbyFeatures ?way .
filter regex(?a, "Tierkliniken")
}
----------------------------------
Am Ergebnis sieht man auch, was nominatim wohl macht - es sucht ein
geeignetes OSM-Objekt (node, way, relation) heraus und berechnet daraus
die Punktkoordinaten, die gespeichert werden. An den Tierkliniken sieht
man auch, dass hier für viele Adressen dasselbe Objekt gewählt wurde und
folglich auch dieselben Geokoordinaten berechnet wurden.
Das kann man ebenfalls abfragen:
----------------------------------
PREFIX ld: <http://leipzig-data.de/Data/Model/>
PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#>
SELECT distinct ?lat ?long count(distinct ?e) as ?s WHERE {
?e a ld:Adresse .
?e geo:lat ?lat .
?e geo:long ?long .
} order by desc(?s)
----------------------------------
Spitzenreiter sind die Koordinaten (51.298494, 12.3272934), die 190
Adressen zugeordnet ist. Datenqualität erhöhen bedeutet also, diese
Ambiguitäten auflösen (oder mglw. besser zu verstehen, was eine Adresse
ist).
Andererseits gibt es Adressen, die keine Geokoordinaten haben (meist,
weil sie später hinzugefügt wurden, Claus immer wieder versprochen hat,
das noch mal durch Nominatim zu jagen, das aber bisher nicht passiert
ist). Auch hierzu die relevante Anfrage:
----------------------------------
PREFIX ld: <http://leipzig-data.de/Data/Model/>
PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#>
SELECT count(distinct ?e) WHERE {
?e a ld:Adresse .
optional {?e geo:lat ?l . }
filter (!bound(?l))
}
----------------------------------
Derzeit 2163 Adressen.
Es wäre spannend, hier an beiden Fronten (Hausnummern in OSM und
Geo-Koordinaten in leipzig-data.de) weiterzukommen.
hgg
--
Dr. Hans-Gert Graebe, apl. Prof., Inst. Informatik, Univ. Leipzig
postal address: Postfach 100920, D-04009 Leipzig
Hausanschrift: Augustusplatz 10, 04109 Leipzig, Raum P-633
tel. : +49-341-97-32248
email: graebe at informatik.uni-leipzig.de
Home Page: http://www.informatik.uni-leipzig.de/~graebe