Text- und Data-Mining (TDM)

Informationserschließung und Semantische Technologien

Wachsende Datenmengen und komplexe Informationsbedürfnisse der Nutzer z.B. im Rahmen von Such- und Rechercheprozessen, stellen Wissenschaftler und Informationsspezialisten vor große Herausforderungen. Diese erfordern neue Konzepte und effiziente Methoden, u.a. des Text- und Data-Minings (TDM), welche z.B. zur Analyse und Abfrage von Wissen im Rahmen spezieller Fragestellungen der Patentsuche und -analyse eingesetzt werden können. In der angewandten Forschung arbeiten wir deshalb an speziellen Verfahren des maschinellen Lernens, der verteilten Datenprozessierung zur Abfrage und Analyse großer Datenmengen (Big Data Analytics) und der semantischen Erschließung der Patentvolltexte, z.B. mit Hilfe von Wissen aus Ontologien und Linked Open Data (LOD).


Patent Mining und Semantic Enrichment

Um qualitativ hochwertige Analyseergebnisse aus Patentdaten zu erzielen, ist die erweiterte inhaltliche Strukturierung der Patentvolltexte unabdingbar. Deshalb ist einer unserer Arbeitsschwerpunkte die tiefere Strukturierung und inhaltlichen Erschließung der Claims und der Detailed Description eines Patentdokuments mittels maschineller Lernverfahren. Neben der Möglichkeit, Suchanfragen viel präziser zu formulieren, helfen solche Ansätze außerdem bei der Verbesserung und Entwicklung von erweiterten Methoden zur automatischen Extraktion von domänenspezifischen Entitäten und Terminologien.

Die maschinelle Erschließung von Textdokumenten erfordert darüber hinaus die semantische Repräsentation essenzieller Bestandteile der Dokumenteninhalte, z. B. in RDF/OWL. Dies betrifft sowohl die Repräsentation der Metadaten als auch die Abbildung relevanter automatisch extrahierter Entitäten und Relationen einer Domäne. Die semantische Erschließung der Informationen ermöglicht zusätzlich die interoperable Verlinkung mit externen Quellen, z. B. aus der Linked Open Data Cloud, oder die Integration und Nutzung spezialisierter Wissensbasen (z.B. bio-chemische Information aus ChEMBL) im Rahmen von Analyseprozessen.


Semantic Search und Knowledge Graphs

Neben etablierten Ansätzen zur Informationssuche im Rahmen der Patentrecherche über Boole‘sche Logik, sollen erweiterte und komplexe Anfragemöglichkeiten über einen entitätenzentrierten oder wissensbasierten Ansatz untersucht und entwickelt werden. Ziel ist die Erforschung von unterschiedlichen Formen der semantischen Suche unter Einsatz von Wissensgraphen (Knowledge Graphs). Dafür  können domänenspezifische Ontologien genutzt und relevante Entitäten und deren Relationen zunehmend automatisch bspw. mittels Deep Learning-Verfahren identifiziert, extrahiert und disambiguiert werden.


Big Data Analytics

Die immens wachsende Datenmenge (Big Data) an wissenschaftlich-technischen Informationen erfordert neuartige und skalierbare Methoden zur Abfrage, Analyse und Visualisierung. Wir erforschen und entwickeln dafür spezifische Lösungen zur Analyse von großen Patentkorpora, um komplexe Fragestellungen z.B. aus dem Fachgebiet der Life-Sciences beantworten zu können. Zusammen mit neuen Methoden des TDM ist unser Ziel, komplexes Wissen aus großen Datenmengen (z.B. Technologietrends) zu identifizieren.

Kontakt

Dr. Hidir Aras

Dr. Hidir Aras
Projektleiter TDM
Bereich IT, Entwicklung und angewandte Forschung

Tel.: +49 7247 808 306
hidir.aras(at)remove-this.fiz-karlsruhe(dot)de


Mehr Information