[OSM-HH] Adressen aus Webseiten auslesen
mip
mip+lists.openstreetmap.de at rootcamp.net
Di Jan 4 13:32:21 CET 2011
Hi,
On 03.01.2011 22:52, Josias Polchau wrote:
> wie wäre es, einen Crawler zu bauen, der Websiten durchsucht, zb nach
> Adressen oder anderem (wie zb der Telefon, Öffnungszeiten)
> und diese in einer DB abspeichert.
> zusätzlich zu der Adresse eine ungefähre Position (goecoding) und, wenn
> vorhanden OSM Objekte die dem jeweiligen eintrag ähnlich sind (name,
> position).
ich persönlich halte nicht viel von solchen Tools, weil viele User dann
wahrscheinlich dazu neigen, die damit gewonnenen Daten ungecheckt zu
übernehmen.
Die Stärken kann OSM doch gerade dort ausspielen, wo Leute vor Ort ihr
persönliches Wissen einbringen.
Aber egal, überlegen könnte man ja mal:
Semantische Tags zur Georeferenzierung werden auf Webseiten kaum genutzt
und sogar das Parsen eines evtl. vorhandenen address-Tags dürfte relativ
schwerfallen.
Vorstellbar wäre für mich folgender Ablauf:
* ggf. Suche nach Impressums- oder Kontaktseite
* Suche nach potentiellen PLZ (im einfachsten Falle alle 5-stelligen)
auf der Seite
* ggf. Abgleich von PLZ mit im Text zu findenden potentiellen Ortsnamen
* Abgleich von "normalisierten" (hinsichtlich Trennstrichen, ss/sz etc.
wg. Mehrfrachschreibweisen) Wörtern auf der Seite mit Strassennamens-DB
der gefundenen potentiellen PLZ und Wichtung nach Text-Abstand zur
PLZ-Position im Text. Hierdurch erhielte man PLZ und Strassennamen.
* Suche nach Zahl oder Zahlenintervall und ggf. Buchstabe nach
(vorrangig in DE) oder vor dem Strassennamen für die Hausnummer.
Mit etwas Glück hat man nun eine Adresse.
Der entsprechende Name zur Adresse müsste sich in der Mehrheit der Fälle
aus dem Titel der Haupt-Seite ergeben, zur Sicherheit könnte man mehrere
hierfür beliebte Tags (title, h1, meta, etc.) auswerten und bei
Mehrfachtreffern die mit Nennung einer Rechtsform (GmbH, AG, etc.) höher
wichten.
Telefonnummern wiederum dürften einfach sein: Ziffernfolgen inkl.
Leerzeichen, Slash, "Strich" (Minus, Geviert, etc.) und Pluszeichen
kämen als Telnummer in Frage. Ein Abgleich von Vorwahlen zur PLZ, sowie
die Text-Nähe zur Adresse oder Unternehmensbezeichner hilft, die
besseren Kandidaten höher zu wichten.
Öffnungszeiten zu parsen kannst Du IMHO komplett vergessen, dafür gibt
es einfach viel zu viele Darstellungsformen (textlich und vom Satz bzw.
der HTML-Auszeichnung her (z.B. Tabelle vs. Liste)).
Viele Grüße,
mip