[rdm4mdr] WG: [forschungsdaten] Fwd: Metadaten für Dateien

Mon Mar 31 16:17:27 CEST 2025

Liebe FDM Community,

Ich finde, LinKAhead von Indiscale ist ein sehr interessanter Ansatz für das Forschungsdatenmanagement. In der weiteren Email gibt es Informationen dazu sowie einen VEranstaltungshinwei am 10. April bei dem SaxFDM Digital Kitchen, wo es vorgestellt wird.

Viele Grüße
Wolf 

-----Ursprüngliche Nachricht-----
Von: forschungsdaten-request at listserv.dfn.de <forschungsdaten-request at listserv.dfn.de> Im Auftrag von Stephan Janosch
Gesendet: Montag, 31. März 2025 15:28
An: forschungsdaten at listserv.dfn.de
Betreff: [forschungsdaten] Fwd: Metadaten für Dateien

Hi Liste,

anbei noch weitere Informationen zu LinkAhead.

Noch ein Veranstaltungshinweis in die Richtung, falls du es nicht ohnehin schon auf dem Schirm hast: am 10.04. 13-14 Uhr stellt Alexander Schlemmer 
von IndiScale LinkAhead in der Digital Kitchen vor. Mehr hier: https://saxfdm.de/veranstaltungen/indiscale/

Stephan

-------- Forwarded Message --------
Subject: Re: [forschungsdaten] Metadaten für Dateien
Date: Mon, 31 Mar 2025 13:36:13 +0200
From: Henrik tom Wörden <h.tomwoerden at indiscale.com>
To: forschungsdaten at listserv.dfn.de
CC: janosch at extern.mpi-cbg.de

Liebe Liste, lieber Stephan,

in der Tat kann LinkAhead (https://getlinkahead.com/ , AGPL open source research data management) zu diesem Zweck eingesetzt werden.

LinkAhead arbeitet mit Dateisystemen und Netzlaufwerken zusammen, indem diese eingebunden werden und Informationen über die enthaltenen Dateien 
speichert. Dieser Import von Informationen (und das Aktualisieren dieser) erfolgt über den LinkAhead Crawler 
(https://docs.indiscale.com/caosdb-crawler/), der entweder standardisierte Strukturen (zB. BIDS: https://github.com/bids-standard oder Standardize 
Filesystem Layout https://www.mdpi.com/2306-5729/5/2/43) über Standardmodule oder spezielle Dateistrukturen über eine angepasste Konfiguration 
einliest. Dabei können auch Metadaten aus Dateien ausgelesen werden. Eine typische Konfiguration kategorisiert Dateien nach dem Pfad (z.B. Experimente 
liegen in "experiments/202X-XX-XX") und Namen (z.B. Parameter werden in "params.yaml" dokumentiert) und behandelt diese abhängig von der Kategorie. 
Die Konfiguration erfordert keine Programmierkenntnisse, kann jedoch durch custom code ergänzt werden (um z.B. spezielle Dateiformate zu öffnen).

LinkAhead geht dabei über die reine Speicherung von Metadaten zu Dateien hinaus. Man kann in LinkAhead jegliche Forschungsdaten organisieren und 
auffindbar machen. Metadaten von Dateien spielen dabei eine zentrale Rolle, sind aber nicht die einzigen Informationen. Für einen Eindruck, wie 
Forschungsdaten in LinkAhead organisiert werden können, möchte ich einen Blick in die Demo empfehlen (https://demo.indiscale.com).

Aktuell werden in LinkAhead typischerweise kuratierte Daten gespeichert. D.h. es wird beim Import viel Wert auf die Qualität der Informationen gelegt. 
Wir arbeiten jedoch daran, dass zusätzlich Metadaten out-of-the-box (also ohne Konfiguration) extrahiert werden (z.B. Autor eines PDFs) und in 
LinkAhead separate gekennzeichnet werden.

Der LinkAhead Crawler wird im Übrigen auch verwendet um automatisert Daten aus ELNs wie Kadi und ElabFTW einzulesen.

Falls eine "schlankere" Lösung gewünscht ist, möchte ich hier auf den GöDL Catalog hinweisen. Nach meinem Verständnis ein Werkzeug, dass Informationen 
zu Dateien in Elastic Search speichert (https://gitlab.gwdg.de/hendrik.nolte/goedl https://docs.hpc.gwdg.de/services/g%C3%B6dl/index.html)

Viele Grüße

Henrik tom Wörden

-- 
Dr. Henrik tom Wörden
Geschäftsführer

T: +49 551 288 76 48-1
E: h.tomwoerden at indiscale.com
I: indiscale.com

IndiScale - Wir machen individuelles Datenmanagement skalierbar.

IndiScale GmbH
Lotzestraße 22a
37083 Göttingen

Amtsgericht Göttingen • HRB 205721
Geschäftsführung Henrik tom Wörden

On 3/28/25 13:51, Stephan Janosch wrote:
> Hi liebe Liste!
>
> Zum Freitag mal keine Ankündigung, sondern handfeste Probleme.
>
> Situation:
> - diverse Betriebssysteme
> - diverse Dateisysteme
> - kollaboratives Arbeiten
> - "Netzlaufwerk" mit 120 000 Dateien welche zusammen 15 TB belegen 
> (gerne mit 10 oder 100 multiplizieren)
> - organisch gewachsene Verzeichnishierarchien, die vom ELN verlinkt sind
>
> Herausforderung:
> - Organisieren von Metadaten (Experimente, PublikationsIDs, Methode..) 
> auf Dateieebene.
>
> Anforderung:
> - Abfrage/Sortieren/Filtern der Metadaten um beliebige Dateiteilmengen 
> zu erstellen
> - Effizientes Aktualisieren von beliebigen Metadaten von Dateiteilmengen
> - Effizientes Hinzufügen von beliebigen Dateiteilmengen
>
> Mir fallen da spontan 2.5 Lösungsansätze/-Ideen ein:
> - sqlite-Datenbank neben den Daten mit diversen Clients und SQL als 
> "Datensprache"
> - https://mithrandie.github.io/csvq/ - SQL-like query language for csv 
> - anstatt sqlite
> - "FDM-Interface" welches Datenindex mit Metadaten führt
>
> Jetzt die Frage: Hat jemand mit dieser Situation Erfahrung und 
> praktische Lösungsansätze gefunden, die Forschende nicht überfordert 
> (Notfalls "Excel-Interface" für Änderungen)? Wie oder ob machen SFBs 
> oder NFDI-Konsortien das?
>
> Schönes Vorwochenende,
> Stephan
>
> PS:
> - Via saxFDM weiß ich, dass die TU Dresden Mediaflux für diesen 
> Anwendungsfall ausrollt. - https://www.arcitecta.com/mediaflux/about/
> - Linkahead von Indiscale hat einen Dateicrawler Metadaten zur 
> Befüllung eines Webinterfaces zur Metadatenverwaltung (keine Erfahrung 
> damit)
>
>