<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<!--[if !mso]><style>v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style><![endif]--><style><!--
/* Font Definitions */
@font-face
{font-family:"Cambria Math";
panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
{font-family:Calibri;
panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
{margin:0cm;
font-size:11.0pt;
font-family:"Calibri",sans-serif;
mso-fareast-language:EN-US;}
a:link, span.MsoHyperlink
{mso-style-priority:99;
color:#0563C1;
text-decoration:underline;}
span.E-MailFormatvorlage17
{mso-style-type:personal-compose;
font-family:"Calibri",sans-serif;
color:windowtext;}
.MsoChpDefault
{mso-style-type:export-only;
font-family:"Calibri",sans-serif;
mso-fareast-language:EN-US;}
@page WordSection1
{size:612.0pt 792.0pt;
margin:70.85pt 70.85pt 2.0cm 70.85pt;}
div.WordSection1
{page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="DE" link="#0563C1" vlink="#954F72" style="word-wrap:break-word">
<div class="WordSection1">
<div class="MsoNormal" align="center" style="text-align:center"><span style="font-size:12.0pt;color:black">
<hr size="2" width="98%" align="center">
</span></div>
<p class="MsoNormal"><b><span style="color:black">Von:</span></b><span style="color:black"> Tobias Gottschall<br>
<b>Gesendet:</b> Donnerstag, 19. Dezember 2024 08:30<br>
<b>An:</b> </span><a href="mailto:rdm4mdr-l@listserv.ovgu.de">rdm4mdr-l@listserv.ovgu.de</a><span style="color:black"><br>
<b>Betreff:</b> langzeitziel RDM into BIDS/ARC</span><span style="font-size:12.0pt;color:black">
<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:12.0pt;color:black"> <o:p></o:p></span></p>
<p><span style="font-size:12.0pt;color:black">Hallo, <o:p></o:p></span></p>
<p><span style="font-size:12.0pt;color:black"><o:p> </o:p></span></p>
<p style="margin-bottom:12.0pt"><span style="font-size:12.0pt;color:black">da ich den Eindruck hatte, dass es durchaus Interesse daran gab, mehr Details darüber zu bekommen, wie das geschilderte Ziel in der praktischen Umsetzung aussehen könnte, hier das Poster
das ich dazu gemacht habe (</span><a href="https://zenodo.org/records/8349563"><span style="font-size:12.0pt">https://zenodo.org/records/8349563</span></a><span style="font-size:12.0pt;color:black">).<o:p></o:p></span></p>
<p><span style="font-size:12.0pt;color:black">Darauf sieht man wie ein BIDS (</span><a href="https://bids.neuroimaging.io/"><span style="font-size:12.0pt">https://bids.neuroimaging.io/</span></a><span style="font-size:12.0pt;color:black">) bzw. ARC (</span><a href="https://nfdi4plants.github.io/nfdi4plants.knowledgebase/core-concepts/arc/"><span style="font-size:12.0pt">https://nfdi4plants.github.io/nfdi4plants.knowledgebase/core-concepts/arc/</span></a><span style="font-size:12.0pt;color:black">)
Datensatz aussehen könnte, der den vollständigen Forschungsprozess enthält. Gemein ist einschließlich: Forschungsplanung, Protokoll zur Probenerstellung, Bilddaten, Quellcode für die Auswertung bis zur Publikation. Die eher organisatorischen formalen Dinge
wie DMP, DFG-Antrag, Tierversuchsantrag fehlen hier noch, aber ich denke es wird klar wie diese eingebunden werden könnten.<o:p></o:p></span></p>
<p><span style="font-size:12.0pt;color:black"><o:p> </o:p></span></p>
<p><span style="font-size:12.0pt;color:black">Wie man die unterschiedlichen Datenquellen verknüpfen könnte um einen solchen Datensatz automatisiert zu erstellen, um ihn dann auf ein öffentliches Archiv (oder einer Plattform wie gestern von DIZ beschrieben)
hochzuladen habe ich in einem kleinen Proof-of-concept repo erläutert, sowie einen Prototypen hochgeladen:
</span><a href="https://github.com/SaibotMagd/RDM_system_connector"><span style="font-size:12.0pt">https://github.com/SaibotMagd/RDM_system_connector</span></a><span style="font-size:12.0pt;color:black"> .<o:p></o:p></span></p>
<p><span style="font-size:12.0pt;color:black"><o:p> </o:p></span></p>
<p><span style="font-size:12.0pt;color:black">Das Auslesen und Zuordnen von Tags bzw. Schlüsselbegriffen zu Ontologien in die von der NFDI bevorzugte NFDIcore Struktur fehlt noch. Für die als "domain extension" bezeichnete dritte Ebene des NFDIcore 2.0 Ontology
systems (siehe seite 16 auf: </span><a href="https://zenodo.org/records/12721606"><span style="font-size:12.0pt">https://zenodo.org/records/12721606</span></a><span style="font-size:12.0pt;color:black">) sollen die Ontologien, die bei OLS4 (EMBL-EBI Ontology
Lookup Service: </span><a href="https://www.ebi.ac.uk/ols4"><span style="font-size:12.0pt">https://www.ebi.ac.uk/ols4)</span></a><span style="font-size:12.0pt;color:black"> gesammelt werden, eingebunden werden. Eine sehr simple Möglichkeit wie man die Schlüsselbegriffe
zu den Ontologieeinträgen zuordnen könnte habe ich unter den Begriff: "fuzzy similarity matching" im erwähnten Repo demonstriert. Bessere Ergebnisse bekam ich aber durch den Einsatz eines LLM's. Auch wenn in dem Repo Quellcode enthalten ist, der die lokale
Verwendung des LLMs demonstriert, fehlt uns voraussichtlich die Hardware und die finanziellen Mittel das on-premise umzusetzen.<o:p></o:p></span></p>
<p><span style="font-size:12.0pt;color:black"><o:p> </o:p></span></p>
<p><span style="font-size:12.0pt;color:black">Im Anschluss daran werden die mit den Ontologien angereicherten Schlüsselbegriffe zusammen mit den Bild-Metadaten in eine Knowledge Graphen Struktur gebracht (entweder Virtuell
</span><a href="https://github.com/CFGrote/omero-ontop-mappings"><span style="font-size:12.0pt">https://github.com/CFGrote/omero-ontop-mappings</span></a><span style="font-size:12.0pt;color:black"> oder als Kopie
</span><a href="https://github.com/neo4j-labs/rdflib-neo4j"><span style="font-size:12.0pt">https://github.com/neo4j-labs/rdflib-neo4j</span></a><span style="font-size:12.0pt;color:black"> ). Dieser KG wird dann per RAG an ein LLM angebunden (z.B.
</span><a href="https://machinelearningmastery.com/building-graph-rag-system-step-by-step-approach/"><span style="font-size:12.0pt">https://machinelearningmastery.com/building-graph-rag-system-step-by-step-approach/</span></a><span style="font-size:12.0pt;color:black">
& </span><a href="https://cookbook.openai.com/examples/rag_with_graph_db"><span style="font-size:12.0pt">https://cookbook.openai.com/examples/rag_with_graph_db</span></a><span style="font-size:12.0pt;color:black">).<o:p></o:p></span></p>
<p><span style="font-size:12.0pt;color:black"><o:p> </o:p></span></p>
<p><span style="font-size:12.0pt;color:black">Nun hoffe ich, dass dies das Ziel und die Erreichbarkeit dessen deutlich macht, auch wenn natürlich noch viel Entwicklungsarbeit nötig ist.
<o:p></o:p></span></p>
<p><span style="font-size:12.0pt;color:black"><o:p> </o:p></span></p>
<p><span style="font-size:12.0pt;color:black">Liebe Grüße und erholsame Feiertage,<o:p></o:p></span></p>
<p><span style="font-size:12.0pt;color:black">Tobias Gottschall, M.Sc.<o:p></o:p></span></p>
<p style="margin-bottom:12.0pt"><span style="font-size:12.0pt;color:black">NFDI4bioimage @ Leibniz Institute for Neurobiology<o:p></o:p></span></p>
</div>
</body>
</html>