[OSM-Dresden] Zahlen zu Operator

Jochen Topf jochen at remote.org
Di Feb 24 21:38:20 CET 2015


Hi!

zu der Diskussion, ob der Operator als Abkürzung oder als langer Name
geschrieben wird, gibts auf beiden Seiten durchaus schlüssige Argumente. Ich
tendiere selber eher dazu, die Abkürzung zu verwenden. Das ist das, was der
"Mann auf der Straße" eher erwartet und versteht. Die angeblich einfachere
Auswertbarkeit bei weltweiter Eindeutigkeit überzeugt mich nicht. Die Daten
sind so schlecht, oft gibt es mehrere Schreibweisen usw., dass jedes Programm,
dass die Daten auswertet, eh "fuzzy" sein muss und weitere Kriterien als nur
einen einfachen Stringvergleich heranziehen muss. Ganz furchtbar finde ich es,
die Rechtsformen ("GmbH & Co KG",...) mit drin zu haben. Das ist insbesondere
für Ausländer schwer verständlich und ändert sich auch gerne mal ganz schnell,
wenn sich die Rechtsform aus irgendwelchen Gründen ändert. Abkürzungen bleiben
meist viel länger erhalten als die Langformen.

Was für mich immer auch so ein Argument ist, ist die Frage, wie es denn andere
machen. Ich hab mir ein bischen angeschaut, was denn da so getagged wird. Bei
den folgenden Zahlen habe ich alle Objekte im Planet gezählt, die einen
public_transport=* Tag haben. (Der Planet ist schon einen oder zwei Monate alt,
also nicht ganz aktuell die Zahlen.)

Wir kommen dann auf weltweit ca. 240.000 Objekte mit operator-Tag. Nur ca.
1.300 davon haben eine Klammer drin, also die Version mit "Langer Name (Kurzer
Name)" oder sowas gibt es kaum, können wir also vernachlässigen.

Wenn man sich jetzt die Daten anschaut, sieht man dass da ne Menge Müll drin
ist. Offensichtlich falsches Tagging und so. Daher schmeisse ich alle Objekte
weg, deren operator-Tag nicht mindestens 10x vorkommt. Damit ist dann auch
einiges weg, wo niemand so richtig systematisch ein Netz erfasst hat. (Kann
man sich natürlich drüber streiten, ob das richtig war.) Rausgeschmissen habe
ich auch alle Werte, die ein Semikolon enthalten, weil da offenbar jemand
versucht hat, mehrere Operator zu taggen.

Es bleiben dann 929 verschiedene operator-Tags übrig. Hier sind die, die mehr
als 1000 mal vorkommen:

   1058 DVB
   1065 VAG
   1073 Magdeburger Verkehrsbetriebe GmbH & Co. KG
   1187 PAG
   1232 旭川電気軌道
   1330 SEMITAN
   1429 AMT
   1462 Veolia Transport
   1465 DPB
   1859 Vestische
   1861 DSW21
   1999 MVG
   2178 SNCF
   2184 ZDiUM Wrocław
   2304 RTM
   2304 Stadtverkehr Lübeck
   2583 Zarząd Transportu Miejskiego w Warszawie
   2710 高雄市公車
   2950 Transpole
   3003 ΟΑΣΑ
   3361 臺南市公車
   3465 Arriva
   3992 TITSA
   3995 Tisséo
   4639 EMT Madrid
   8046 MBTA
   8630 ATAC
  32046 TEC
  37414 De Lijn

Wie man sehen kann sind die Abkürzungen etwas beliebter. Zumindest hier bei den
sehr häufig vorkommenden Operators. Zählt man nach sind von 929 Operators, 634
lang und 295 kurz. Dabei habe ich jetzt willkürlich alles, was fünf Buchstaben
oder länger ist als "lang" und alles mit bis zu vier Buchstaben als Abkürzung
definiert, das passt nicht so ganz, einiges, was klar eine Abkürzung ist,
wird so als "lang" gewertet.

Zählt man die Objekte mit diesen Tags kommt man auf ca. 233.000 Objekte von
denen ca. 137.000 einen operator-Tag mit "langem" Inhalt haben.

Wir kommen also etwa auf einen Gleichstand, zumindest ganz grob gesehen und mit
vielen Vereinfachungen. Vielleicht etwas mit einer Tendenz zu Abkürzungen bei
sehr häufig vorkommenden Werten und den Langformen bei seltener vorkommenden
Werten. Es ist also nicht so, dass es da einen Konsens gibt, dem wir uns
anschließen "müssten".

Wie Euch aufgefallen sein wird ist die DVB mit 1058 in der Liste oben vertreten.
(Gute Arbeit WolleDD!) Von mir aus sehe ich sehe da jetzt nicht so die
Veranlassung das zu ändern. Warum nicht so lassen, wenn es nunmal so eingeführt
ist? Einen Konsens für eine Änderung scheint es auf jeden Fall hier nicht zu
geben.

Jochen

PS: Sorry, dass ich mich erst jetzt wieder melde. Bin leider krankheitshalber
ausgefallen. Bei der sonstigen ÖPNV-Tagging-Diskussion scheint es mir ja eine
sehr gute Diskussion gegeben zu haben, deren Ergebnis ich gut mittragen kann.
-- 
Jochen Topf  jochen at remote.org  http://www.jochentopf.com/  +49-173-7019282