[rdm4mdr] Langzeitziel RDM into BIDS/ARC
Zinke, Wolfgang
wolf.zinke at ovgu.de
Thu Dec 19 12:40:12 CET 2024
________________________________
Von: Tobias Gottschall
Gesendet: Donnerstag, 19. Dezember 2024 08:30
An: rdm4mdr-l at listserv.ovgu.de<mailto:rdm4mdr-l at listserv.ovgu.de>
Betreff: langzeitziel RDM into BIDS/ARC
Hallo,
da ich den Eindruck hatte, dass es durchaus Interesse daran gab, mehr Details darüber zu bekommen, wie das geschilderte Ziel in der praktischen Umsetzung aussehen könnte, hier das Poster das ich dazu gemacht habe (https://zenodo.org/records/8349563).
Darauf sieht man wie ein BIDS (https://bids.neuroimaging.io/) bzw. ARC (https://nfdi4plants.github.io/nfdi4plants.knowledgebase/core-concepts/arc/) Datensatz aussehen könnte, der den vollständigen Forschungsprozess enthält. Gemein ist einschließlich: Forschungsplanung, Protokoll zur Probenerstellung, Bilddaten, Quellcode für die Auswertung bis zur Publikation. Die eher organisatorischen formalen Dinge wie DMP, DFG-Antrag, Tierversuchsantrag fehlen hier noch, aber ich denke es wird klar wie diese eingebunden werden könnten.
Wie man die unterschiedlichen Datenquellen verknüpfen könnte um einen solchen Datensatz automatisiert zu erstellen, um ihn dann auf ein öffentliches Archiv (oder einer Plattform wie gestern von DIZ beschrieben) hochzuladen habe ich in einem kleinen Proof-of-concept repo erläutert, sowie einen Prototypen hochgeladen: https://github.com/SaibotMagd/RDM_system_connector .
Das Auslesen und Zuordnen von Tags bzw. Schlüsselbegriffen zu Ontologien in die von der NFDI bevorzugte NFDIcore Struktur fehlt noch. Für die als "domain extension" bezeichnete dritte Ebene des NFDIcore 2.0 Ontology systems (siehe seite 16 auf: https://zenodo.org/records/12721606) sollen die Ontologien, die bei OLS4 (EMBL-EBI Ontology Lookup Service: https://www.ebi.ac.uk/ols4)<https://www.ebi.ac.uk/ols4> gesammelt werden, eingebunden werden. Eine sehr simple Möglichkeit wie man die Schlüsselbegriffe zu den Ontologieeinträgen zuordnen könnte habe ich unter den Begriff: "fuzzy similarity matching" im erwähnten Repo demonstriert. Bessere Ergebnisse bekam ich aber durch den Einsatz eines LLM's. Auch wenn in dem Repo Quellcode enthalten ist, der die lokale Verwendung des LLMs demonstriert, fehlt uns voraussichtlich die Hardware und die finanziellen Mittel das on-premise umzusetzen.
Im Anschluss daran werden die mit den Ontologien angereicherten Schlüsselbegriffe zusammen mit den Bild-Metadaten in eine Knowledge Graphen Struktur gebracht (entweder Virtuell https://github.com/CFGrote/omero-ontop-mappings oder als Kopie https://github.com/neo4j-labs/rdflib-neo4j ). Dieser KG wird dann per RAG an ein LLM angebunden (z.B. https://machinelearningmastery.com/building-graph-rag-system-step-by-step-approach/ & https://cookbook.openai.com/examples/rag_with_graph_db).
Nun hoffe ich, dass dies das Ziel und die Erreichbarkeit dessen deutlich macht, auch wenn natürlich noch viel Entwicklungsarbeit nötig ist.
Liebe Grüße und erholsame Feiertage,
Tobias Gottschall, M.Sc.
NFDI4bioimage @ Leibniz Institute for Neurobiology
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.ovgu.de/pipermail/rdm4mdr-l/attachments/20241219/30f1065d/attachment.htm>
More information about the rdm4mdr-l
mailing list