LIMES 1.4.0 released
Mobilitätsdaten weisen oft eine komplexe Struktur auf. Klassische Integrationsverfahren können daher nur bedingt auf diese Daten angewendet werden. Im Rahmen des LIMBO Projekts müssen also dezidierte Verfahren zum Verknüpfen von Mobilitätsdaten erarbeitet werden. Diese Aufgabe kommt unter anderem dem LIMES Link Discovery Framework zu, welches kürzlich ein neues Release herausgegeben hat und in diesem Blogpost vorgestellt wird.
Linked Data hat als Grundlage Wissensbasen, die durch Links verbunden sind. Das Ziel von Link Discovery ist es bisher unbekannte Links zwischen Wissensdatenbanken zu finden. Aufgrund der Größe und Anzahl von Wissensdatenbanken, hat man bei Link Discovery vor allem zwei Herausforderungen. Erstens müssen Link Discovery Tools zeiteffizient Links berechnen können und zweitens müssen die so erhaltenen Links möglichst korrekt sein.
LIMES (LInk discovery framework for MEtric Spaces) implementiert neuartige zeiteffiziente Ansätze für Link Discovery in metrischen Räumen. Hierbei werden unterschiedliche Approximationsverfahren genutzt um Ähnlichkeiten zwischen Instanzen der Wissensbasen zu schätzen. Auf Basis dieser Schätzungen kann eine große Anzahl an Instanzpaaren, die nicht die Bedingungen für einen korrekten Link erfüllen, im Vornherein ausgeschlossen werden. LIMES kann so die Anzahl an Instanzvergleichen um mehrere Größenordnungen verkleinern. In LIMES sind diverse Algorithmen implementiert, wie der ursprüngliche LIMES Algorithmus für Editierdistanzen, HR3 und HYPPO . Desweiteren unterstützt LIMES die erste Planungstechnik für Link Discovery HELIOS, welche die Gesamtzeit zur Ausführung einer Linkspezifikation (Konfiguration zur Berechnung der Links) verringert ohne dabei Links zu verlieren. Auch CONDOR, die erste dynamische Planungstechnik für Link Discovery, ist in LIMES zu finden.
Für das LIMBO Projekt sind insbesondere LIMES Fähigkeiten mit Geodaten umzugehen wichtig. So sind unter anderem diverse Distanzmetriken für Geodaten in LIMES implementiert wie z.B. Manhattan Measure. Auch Algorithmen die spezifisch mit geographischen Informationen umgehen wie ORCHID, welcher auf einer effizienten Berechnung der Hausdorff-Metrik und optimaler Aufteilung des Suchraums beruht, werden genutzt. Zur effizienten Berechnung topologischer Relationen gemäß dem DE9-IM wird RADON eingesetzt.
Da das Erstellen einer Linkspezifikation nicht trivial ist stellt LIMES überwachte und unüberwachte Lernalgorithmen zur Verfügung um akkurate Linkspezifikationen zu finden. Derzeit sind EAGLE und WOMBAT implementiert.
Konfigurationsdateien können nicht nur als Datei übergeben werden, sondern auch mithilfe einer graphischen Oberfläche (GUI) erstellt, verändert und ausgeführt werden. Auch die Algorithmen für das maschinelle Lernen sind über die GUI konfigurierbar.
Es stehen zwei detaillierte Handbücher für LIMES zur Verfügung:
– Benutzerhandbuch, mit Anweisungen zur Konfiguration und Nutzung der LIMES Java Applikation
– Entwicklerhandbuch, welches den Aufbau und die fundamentalen Bausteine von LIMES beschreibt. Dieses Handbuch ist für Personen gedacht, die das Framework entweder erweitern wollen, oder es in ihr Softwareprodukt integrieren wollen. Das Dokument zielt darauf die zugrundeliegende Architektur des Frameworks zu erläutern, grundlegende Konzepte zu erklären und Entwicklern geeignete Einstiegspunkte in die Java Dokumentation, zum vertiefenden Lesen, zu liefern.
LIMES ist quelloffen und unter dualem Lizenmodel auf github zu finden. Weitere Informationen, unter anderem über 30 peer-reviewed Publikation in Konferenzen und Journals, sind auf der Projektseite zu finden.