UIMA-HPC ist gefördert vom BMBF – Bundesministerium für Bildung und Forschung (Förderkennzeichen: 01IH11012A).

Partner

Das Konsortium wird von Fraunhofer SCAI geleitet. Partner sind

Kontakt

Dr. Marc Zimmermann

Telefon +49 2241 14-2276
marc.zimmermann(at)scai.fraunhofer.de

Die Suche nach der Wissens-Nadel im Daten-Heuhaufen

Die unglaubliche und weltweit ständig wachsende Fülle von Fachartikeln, Patenten und anderen Nachrichtenquellen (wie z.B. Blogs) ruft sozusagen nach einem automatischen Lesen und Auswerten. So enthält die Literaturreferenzdatenbank PubMed (http://www.ncbi.nlm.nih.gov/pubmed/) derzeit mehr als 20 Millionen Einträge auf dem biologisch-pharmakologischen Gebiet. Hier stößt die menschliche Fähigkeit, sich einen schnellen Überblick zu verschaffen, an ihre Grenzen. Die Idee dieses Projektes ist, Verfahren zu entwickeln, das bestehende Wissen in unstrukturierten Quellen schnell und effizient für neue Fragestellungen nutzbar zu machen.

Die Herausforderung in diesem Projekt ist die volle Breite der Quellen-Formate: Texte und Bilder, Spalten und Bildunterschriften, Tabellen und Diagramme, Kolumnen und Blogs, die alle automatisch, aber mit Sinn und Fachverstand interpretiert werden sollen. Deshalb werden neue Methoden der rechnerunterstützten Informationsextraktion benötigt, um Wissenschaftlern relevante Information in kompakter und strukturierter Form zur Verfügung zu stellen, welches über reine Stichwortsuchen hinausgeht.

Automatische Analyse von chemischen und pharmazeutischen Dokument-Datenbanken

Der schematisierte UIMA-HPC Arbeitsablauf. (Klicken zum vergrößern)

„Sind Strukturvariationen um dieses Grundgerüst in der Literatur bereits erwähnt worden und wenn ja: gibt es Hinweise auf deren Wirkungen (z.B. toxische oder unerwartete Wirkungen)?“; „Sind die Strukturvariationen mit Rechten Dritter belastet bzw. kann ich hierauf freien Zugriff erhalten?“; „Welche Unternehmen oder Forschergruppen beschäftigen sich seit wann und mit welcher Stoßrichtung auf meinem Arbeitsgebiet?“

Inbesondere spielt der Zeitfaktor bei der automatischen Verarbeitung eine wesentliche Rolle und erfordert deshalb eine neue Herangehensweise, welche sich moderne Rechnerarchitekturen (Mehrkernsysteme) zu nutze macht.

Die Partner – das Fraunhofer SCAI, das Jülich Supercomputing Centre, die Taros Chemicals GmbH & Co KG und die scapos AG  – wollen das quasi Standardprotokoll für die Informationsextraktion UIMA in ein HPC Framework (UNICORE) einbetten, welches die effiziente Parallelisierung (Rechenzeit und Datenfluss) gewährleistet. UIMA (englisch: Unstructured Information Management Architecture) erlaubt ganz allgemein das Durchmustern von digitalen Datenströmen (Text, Audio, Bild, Video) nach Informationen.

Durch UIMA-HPC wird eine neue Klasse von Anwendungen für das Hoch- und Höchstleistungsrechnen (englisch: high performance computing – HPC) erschlossen. Mit dem neuen System für die vollständige und zeitnahe Informationsextraktion können Anwender, die bisher keinen Zugang zu HPC Ressourcen haben, diese nutzen. Die erworbene Expertise und das entwickelte System sollen Kunden als Dokumentenprozessierungsservice angeboten werden.

Hinweis: Apache UIMA, UIMA sind registrierte Marken der Apache Software Foundation.