DEER 1.0.0 wurde released
Linked Data Enrichment bezeichnet das Hinzufügen, Ändern oder Löschen der Tripel eines Eingabesets, um eine angereicherte Version dieser Daten zu erlangen. Dieser angereicherte Datensatz bietet üblicherweise signifikante Vorteile bei bestimmten Anwendungsszenarien. Diese Vorteile beinhalten unter anderem mehr Daten (Quantität), bessere Datenqualität, bessere Organisation der Daten (verfeinerte Ontologie) und Interoperabilität mit anderen Datensätzen (Interlinking).
Eine Vielzahl von industriellen Anwendungen benötigt (meist zum Zwecke einer erhöhten Performanz) physisch integrierte Daten. Im Rahmen des LIMBO Projekts müssen deswegen dezidierte Fusionsverfahren für Mobilitätsdaten erarbeitet werden. Diese Aufgabe erfüllt das DEER Framework, dass wir in diesem Blogpost mit dem neuesten Release vorstellen.
DEER ist ein Linked Data Enrichment Framework, dass Anreicherungsoperatoren bereitstellt. Ein Nutzer, der weiß welche Art Anreicherung ausgeführt werden soll, kann eine DEER Konfiguration in Form eines gerichteten azyklischen Graphen (DAG), bestehend aus Anreicherungsoperatoren, erstellen. DEER nutzt diese Konfiguration, um ein oder mehrere Datensätze anzureichern. Die Aufgabe eines Anreicherungsoperators ist die Menge an Tripeln zu bestimmen, welche bei einem oder mehreren Datensätzen hinzugefügt, verändert oder gelöscht werden sollen, um einen oder mehrere angereicherte Datensätze zu erzeugen.
Die Anreicherungsoperatoren die derzeit von DEER angeboten werden sind: Dereferenzierung, Linking, Anpassung, Filtern, Geo-Fusion und NLP. So ist beispielsweise die Idee beim Dereferenzierungsoperator angereicherte Daten von anderen verlinkten Datensätzen zu finden. Das heißt für einen Eingabedatensatz, der owl:sameAs oder ähnliche Links enthält, wird dieser Operator alle Links von diesem Datensatz zu anderen Datensätzen dereferenzieren, indem Content Negotiation auf HTTP genutzt wird, um relevante Informationen von der so erhaltenen Menge von Tripeln zum Eingabedatensatz hinzuzufügen. Für das LIMBO Projekt ist insbesondere der Geo-Fusionsoperator interessant, da er diverse Fusionsstrategien zur Verfügung stellt um Geodaten anzureichern.
Wir freuen uns das erste Release des Datenanreicherungs- und transformationsframeworks DEER vorzustellen. Ein großer Vorteil in dieser Version ist die Erweiterbarkeit von DEER, d.h. es ist einfach eigene Anreicherungsoperatoren mit beliebiger Komplexität zu implementieren. Die folgenden Funktionalitäten werden derzeit von DEER 1.0.0 unterstützt:
- mehrere Datensätze als Ein-/Ausgabe
- Einführung von gerichteten azyklischen Graphen als Konfiguration
- Vereinfachte und mächtigere RDF Konfigurationsdatei
- Neuer Core mit dynamischer paralleler Implementierungsplanung für zeiteffiziente Anreicherung von großen Datensätzen
- Neuer Geo-Fusionsoperator zum Vereinigen von diversen Geo-Datensätzen in einen Datensatz mit vielen unterschiedlichen Fusionsstrategien
- Neuer Deer Server
- Benutzerhandbuch
- Migration des Quellcodes nach Java 9 und Jena 3.6.0
Im nächsten Release planen wir überwachtes maschinelles Lernen einzubauen, um die Erstellung von Konfigurationsdateien zu erleichtern. Es ist ebenfalls geplant eine neue webbasierte Benutzeroberfläche zu implementieren, sowie weitere Anreicherungsoperatoren und verbesserte Performance ins nächste Release zu integrieren.