[OSM-S] Semantische Graphen - Nutzen und Use-Cases

Stefan Kaufmann transit at shutterworks.org
Fr Aug 9 16:26:21 CEST 2024


Am 07.08.24 um 08:30 schrieb Seifert, Dietmar:

> Ich mußte mich erstmal kurz bei Wikipedia schlau machen bzgl. GLAM und Knowledge Graphen. Letzteres hatte ich zwar schon mal kurz im Blick, aber mir ist noch nicht klar, was für einen Nutzen die Verwaltung dadurch für sich und die Öffentlichkeit erzeugen kann.
> 
> Kennst Du einen Anwendungsfall im Transportbereich, egal ob ÖV oder nicht?

Sorry fuer die Abkuerzung :) Bei Galerien, Bibliotheken, Archiven und 
Museen (was dann oft mit GLAM zusammengefasst wird), gibt es haeufig 
eine bessere Ver-Datung ihrer Informationen als in anderen Bereichen.

Gerade im Archiv- und Bibliotheksbereich ist man da der klassischen 
Verwaltung wirklich meilenweit voraus. Aus dem Bibliothekswesen kommen 
so Ideen wie Dublin Core, mit denen Medien beschrieben werden koennen 
(<https://de.wikipedia.org/wiki/Dublin_Core>). Die sind da auch sehr 
genau mit Bezeichnungen und Ontologien: Ist mit "Moby Dick" das Werk, 
die Expression, eine bestimmte Manifestation oder ein physisches 
Exemplar gemeint? :D (siehe 
<https://www.buecherei-praxishandbuch.de/n2020/index.php?id=282>)

Eine Zeit lang wirkte es auch so, als wuerden Ideen wie Dublin Core und 
Co. ein maschinenlesbares Web einlaeuten. Darauf bezog sich Berners-Lee 
in The Next Web 2009, wo auch die Idee von 5-Sterne-Open-Data herkommt: 
<https://www.youtube.com/watch?v=OM6XIICm_qo>.

Damals war aber die Idee noch eine andere, und das sieht man auch bei 
den Beispielen von 2010 z.B. auf 
<https://5stardata.info/de/examples/gtd-4/>. Dort geht man davon aus, 
dass man so Dinge wie Mikroformate 
<https://de.wikipedia.org/wiki/Mikroformat> oder good old semantic Web 
einsetzt, um der menschenlesbaren Dimension eine maschinenlesbare 
Dimension an die Seite zu stellen.

Das gaebe dann implizit auch einen Graphen, die moderne Idee stellt sich 
fuer mich aber etwas anders dar.

Anstatt Informationen in einer relationalen Datenbank oder – mangels 
einer solchen – in einzelnen Excel-Sheets zu speichern, legt man sie in 
einer Graphdatenbank ab. Informationen sind dann nicht mehr als Tabelle 
organisiert z.B. beim Baumkataster, wo dann jeder Baum eine Zeile mit 
1…n Feldern hat.

Stattdessen wird ein Objekt (ein Baum, eine Strasse, ein Konzept) mit 
Tripeln beschrieben, die die Grammatik Subjekt-Praedikat-Objekt haben. 
Also z.B.

Stuttgart
ist eine
Grossstadt

Stuttgart und Grossstadt sind Objekte, die mit dem Praedikat „ist eine“ 
verbunden werden. "Stuttgart" wird aber auch mit "Regierungsbezirk 
Stuttgart" verbunden: Stuttgart - ist Teil von - Regierungsbezirk Stuttgart.

Im Beispiel des Baumkatasters ist ein bestimmter Baum dann z.B. ein 
Individuum des Taxons Linde. Er hat eine geographische Koordinate, eine 
Hoehe (z.B. in Zentimetern, das ist dann kein Objekt sondern ein 
Literal) und weitere Parameter, die alle so ausgedrueckt werden.

Prinzipiell kann fast alles, was als Excel-Sheet abgelegt wird, auch als 
solch ein Graph mit Tripeln ausgedrueckt werden. Der wesentliche 
Unterschied ist, dass die Datenobjekte und die Praedikate durch URIs 
bezeichnet und dadurch auch maschinell interpretierbar sind – und dass 
man dabei auf Wissen verweisen kann, das anderswo liegt. Beim Import 
solcher Daten muss ich daher nicht die Semantik jeder Zeile haendisch 
zuordnen, sondern die kommt mehr oder weniger automatisch mit. Bislang 
kann ich halt haendisch per Augenabgleich sagen, okay, das ist eine 
Linde. Hier kann ich aber direkt codieren, dass das Konzept "Linde" in 
der GRIN-Datenbank unter dem URI 
<https://npgsweb.ars-grin.gov/gringlobal/taxon/taxonomygenus?id=12151> 
codiert ist und in der OSM als "Tag:genus=Tilia".

Das muss ich dann nicht einmal selber pflegen, denn das ist am Ende der 
Clou mit Linked Data. Ich kann in meinem lokalen Knowledge Graph fuer 
die Baumdatenbank sagen, der Baum XY ist Instanz des Taxons Linde. Das 
Taxon Linde lege ich an – da schreibe ich aber nur rein, dass das 
dasselbe ist (sameAs) wie <http://www.wikidata.org/entity/Q127849>. Dort 
stehen dann GRIN-ID und OSM-Tag drin – das brauche ich gar nicht mehr 
aktuell halten und pflegen. Ich habe lokal quasi nur einen Platzhalter, 
der das Objekt definiert und an eine andere Stelle verlinkt.

Genau dasselbe Konzept ist auch bei den typischen Problemfaellen gerade 
im Kommunalbereich zu finden. In der Regel findet man fuer jede einzelne 
Strasse in den verschiedenen Datensets einer Kommune so drei bis acht 
verschiedene Schreibweisen. Ein Matching ueber mehrere Datenquellen 
hinweg ist dann jedes Mal ein Krampf. Hier koennte man dann auch sagen, 
dass es einen beliebigen fuehrenden Knowledge Graph fuer das 
Strassenverzeichnis gibt – und sei es Wikidata, ganz ketzerisch gesagt. 
Hauptsache es gibt stabile URIs als Identifier. Und dann kann ich diesen 
URI in allen anderen Systemen anstelle des Strassennamens nehmen.

(Theoretisch kann man natuerlich auch immer z.B. den numerischen 
Strassenschluessel einer kommunalen Strassendatenbank o.ae. waehlen. 
Wenn man aber vom einen Graph den anderen verlinkt, kann ich mir das in 
der Ansicht durch das Label des verlinkten Elements ersetzen lassen. Ich 
tippe im UI quasi den Name/das Label des Datenobjekts ein, habe eine 
Autovervollstaendigung, waehle das Datenobjekt aus und bekomme einfach 
nur das Label/den richtigen Namen angezeigt. Hinter den Kulissen ist 
aber der URI verlinkt)


> Ich würde da gerne etwas einsteigen und mehr erfahren wollen. Kannst Du Dir vorstellen, zu dem Thema einen Vortrag, z.B. im OpenTransportMeetup, zu halten?

Tatsaechlich schraube ich mit einer Kollegin seit einer ganzen Weile 
daran herum, passendes Lernmaterial auszuarbeiten. Das koennte ich aber 
zB im OTM auch mal testen, wenn es mehr Form angenommen hat.

regards,
-stk


Mehr Informationen über die Mailingliste Stuttgart