Daten integrieren
Um Ihre Daten in Cognite Data Fusion (CDF) zu analysieren und zu kontextualisieren, müssen Sie effiziente Datenintegrations-Pipelines zwischen Ihrer vorhandenen Dateninfrastruktur und dem CDF-Datenmodell aufbauen.
In CDF enthält eine Datenintegrations-Pipeline in der Regel Schritte zum Extrahieren, Transformieren und Kontextualisieren von Daten. In dieser Einheit werden diese Schritte im Einzelnen vorgestellt.
Für die Integration von Daten in das CDF-Datenmodell können Sie Standardprotokolle und -schnittstellen wie PostgreSQL und OPC-UA sowie Extraktions- und Transformationstools von Cognite oder Drittanbietern verwenden. Die Tools sind von entscheidender Bedeutung für Ihre Datenvorgänge. Wir empfehlen, ein modulares Design für Ihre Datenintegrations-Pipelines zu verwenden, um ihre Verwaltung so weit wie möglich zu vereinfachen.
Daten extrahieren
Die Extraktionstools werden mit den Quellsystemen verbunden und übertragen Daten in ihrem ursprünglichen Format an den Bereitstellungsbereich. Datenextraktoren können in verschiedenen Modi ausgeführt werden. Sie können Daten streamen oder in Batches in den Bereitstellungsbereich extrahieren. Außerdem können sie Daten mit nur wenig oder gar keiner Datentransformation direkt in das CDF-Datenmodell extrahieren.
Mit Lesezugriff auf die Datenquellen können Sie die Systemintegration so einrichten, dass Daten in den CDF-Bereitstellungsbereich (RAW) gestreamt werden. Dort können Daten normalisiert und angereichert werden. Wir unterstützen Standardprotokolle und -schnittstellen wie PostgreSQL und OPC-UA, um die Datenintegration mit Ihren vorhandenen ETL-Tools und Data-Warehouse-Lösungen zu erleichtern.
Wir bieten zudem speziell angefertigte Extraktoren für branchenspezifische Systeme und gebrauchsfertige Standard-ETL-Tools für herkömmliche tabellarische Daten in SQL-kompatiblen Datenbanken.

Wir unterscheiden bei Quellsystemen zwischen zwei Haupttypen:
-
OT-Quellsysteme: Zum Beispiel industrielle Kontrollsysteme mit Zeitreihendaten. Die Übertragung von OT-Daten an CDF kann zeitkritisch sein (wenige Sekunden), und oft müssen die Daten kontinuierlich extrahiert werden.
-
IT-Quellsysteme: Zum Beispiel ERP-Systeme, Dateiserver, Datenbanken und Engineering-Systeme (3D-CAD-Modelle). IT-Daten ändern sich in der Regel weniger häufig (Minuten oder Stunden) als OT-Daten und können oft in Batch-Jobs extrahiert werden.
Alternativen für Bereitstellungsbereich
Daten fließen von Extraktoren in die CDF-Aufnahme-API. Ab diesem Punkt sind sie in der Cloud gespeichert. Die erste Anlaufstelle ist der CDF-Bereitstellungsbereich (RAW). Dort werden tabellarische Daten in ihrem ursprünglichen Format gespeichert. Mit diesem Ansatz können Sie die Logik in Extraktoren minimieren und Datentransformationen in der Cloud ausführen und wiederholen.
Wenn Sie Ihre Daten bereits in die Cloud streamen und dort speichern, beispielsweise in einem Data Warehouse, können Sie die Daten von dort in den CDF-Bereitstellungsbereich integrieren und mit Cognite's Tools transformieren. Alternativ dazu können Sie die Daten in Ihrer Cloud transformieren und den CDF-Bereitstellungsbereich umgehen, um die Daten direkt in das CDF-Datenmodell zu integrieren.