Erschließen

Experten gehen davon aus, dass sich das menschliche Wissen alle 5-6 Jahre verdoppelt, auch für die nächsten Jahre wird dieses exponentielle Wachstum prognostiziert. Dieses Wissen ist in der wissenschaftlichen Literatur, in Patenten, in Faktensammlungen oder als reine Forschungsdaten beschrieben und dargestellt, und es ist in gedruckter oder elektronischer Form gespeichert.

 

Um dieses Wissen wieder auffindbar zu machen, ist es nötig, Informationen zu extrahieren, zu erschließen und über geeignete Informations-Services verfügbar zu machen.


Was heißt „Erschließen“?

Erschließen heißt, Informationen so aufzubereiten, dass sie wieder gefunden und nutzbar gemacht werden können. In diesem Prozess unterscheiden wir drei unterschiedliche Stufen:

 

  • Klassische Informationserschließung: nach formalen Regeln durch systematische Übernahme von bereits vorhandenen Informationen, z. B. bibliografische Daten; zusätzlich die eigene intellektuelle Ergänzung durch Schlagwörter, Klassifikationen und evtl. auch Abstracts
  • Erweiterte Erschließung: durch automatische Standardisierungen von Informationen, z. B. von Patentnummern oder chemischen Strukturen
  • Wissenserschließung: durch systematische, automatische Extraktion und Interpretation von Informationen durch Einsatz von mathematischen Algorithmen und semantischen Technologien. Beispiele sind die Extraktion von mathematischen Formeln oder die Erkennung von chemischen Namen in Volltexten.

Welche Informationsobjekte erschließen wir?

Wir arbeiten auf mehreren Fachgebieten und erschließen sehr unterschiedliche Arten von Informationsobjekten:

 

  • Patentliteratur auf allen technologischen Gebieten, vor allem aus den Volltexten der Patentämter weltweit (STN)
  • Wissenschaftliche Literatur für die Datenbanken der Mathematik (zbMATH, MathEduc), der Informatik (ioport.net) und der International Nuclear Information System (INIS) zur friedlichen Nutzung der Kernenergie
  • Anorganische Kristallstrukturen aus der wissenschaftlichen Literatur (ICSD)
  • Mathematische Software aus der mathematischen Literatur (swMATH)

Was bzw. wie erschließen wir?

Die klassische Erschließung nach formalen Regeln umfasst zunächst die Erfassung von bibliografischen Informationen zur wissenschaftlichen Literatur bzw. der Patentinformationen zur Patentliteratur sowie die inhaltliche Prüfung, die Relevanz- und Plausibilitätsprüfung und schließlich die Fehlerkorrektur.

 

Teilweise werden die Abstracts der Autoren direkt übernommen; für die Mathematik werden daneben eigenständige Reviews aus der Forschung geschrieben.

 

Außerdem werden Schlagwörter aus einem kontrollierten Vokabular oder auf der Basis eines Thesaurus vergeben und die Objekte fachlich klassifiziert.

In der erweiterten Erschließung müssen viele Informationen standardisiert werden. Im Allgemeinen können vorhandene Standards übernommen werden aber es ist auch manchmal erforderlich eigene Standards zu entwickeln. Beispielsweise wurde für die übergreifende Suche in Patentdatenbanken in STN ein eigener Standard für die Patentnummern entwickelt.

 

Chemische Strukturen werden von jedem Hersteller von Struktur-Datenbanken mit eigenen Konventionen erfasst. Diese verschiedenen Konventionen müssen soweit wie möglich vereinheitlicht werden, damit die Nutzer über alle Struktur-Datenbanken hinweg mit einer Suchstruktur recherchieren können.

In bestimmten Fällen können automatische Erschließungsverfahren mittels spezieller Algorithmen angewendet werden. In einem aufwändigen Projekt hat FIZ Karlsruhe für zbMATH die Autorennamen der mathematischen Literatur mit Hilfe von algorithmischen Methoden und teilweise durch intellektuelle Nacharbeit eindeutig den jeweiligen Publikationen zugeordnet. 

 

Dadurch können Autorenprofile mit Ko-Autoren, Klassifikationen und den zugehörigen Journalen erstellt werden. Diesen Autorenprofilen wurden außerdem die Referenzen hinzugefügt, so dass eindeutige mathematische Zitierungsnetzwerke zusammengestellt werden können. Diese Zitationsprofile liegen derzeit in einer Beta Version vor.

 

Mit Hilfe von mathematischen Algorithmen und semantischen Technologien ist es möglich komplexe Entities aus Volltexten zu extrahieren, für die Suche zu klassifizieren und zu standardisieren (wissenschaftliche Erschließung).

 

In einem gemeinsamen Projekt mit der Jacobs-Universität Bremen wurden mathematische Formeln aus der Literatur extrahiert und in einer eigenen Suchmaschine verfügbar gemacht.

 

Für die chemische Erschließung von Patentvolltexten werden in einem neuen Projekt zusammen mit der Firma InfoChem chemische Namen extrahiert und in suchbare chemische Strukturen umgewandelt. In diesen beiden Projekten werden mehrdeutige textuelle Informationen in standardisierte und klassifizierte Entities umgewandelt und damit können sehr komplexe Informationsobjekte zielgenau gefunden werden.


Dynamische Vernetzung von Informationsobjekten

Ein wichtiges Thema für die Informationserschließung ist die dynamische Vernetzung von Informationsobjekten. Gleichartige Dokumente bilden Netzwerke von zusammengehörigen Einheiten wie beispielsweise eine Patentfamilie oder ein Autorennetzwerk.

 

Für Patentfamilien gibt es sehr unterschiedliche Definitionen zur Zusammenführung von Patentanmeldungen und erteilten Patenten zu einer Erfindung. Oft sind die Patente zu einer Erfindung weltweit über verschiedene Patentämter verteilt und sie besitzen daher auch unterschiedliche Rechtsstände.

 

Zur Zusammenführung der verschiedenen Patentfamilien in einem einheitlichen Konzept hat FIZ Karlsruhe zusammen mit seinem Partner Chemical Abstracts Service einen sogenannten Patent Family Index (PFI) entwickelt. Dieser PFI ermöglicht es, aus einem einzigen Patentdokument die verschiedenen Patentfamilien zu identifizieren und auf die zugehörigen Dokumente in den Datenbanken unterschiedlicher Hersteller zuzugreifen.


Was sind die Mehrwerte unserer Erschließung – für unsere Nutzer?

Für anspruchsvolle Informationsrecherchen ist es wichtig, dass die Ergebnisse vollständig sind (Recall) und gleichzeitig der Ballast von nicht gewünschten Ergebnissen soweit wie möglich reduziert wird (Precision).

 

Die qualitativ sehr hochwertige Informationserschließung bei FIZ Karlsruhe führt zu einer signifikanten Verbesserung und Erweiterung der Recherchen durch die gleichzeitige Verbesserung von Recall und Precision.

 

Auf Grundlage der standardisierten Informationen können die Ergebnisse für die Forschung oder auch für geschäftskritische Entscheidungen wissenschaftlich analysiert und grafisch visualisiert werden.