Text- und Datamining an der HSLU

In den vergangenen Jahren hat die Zahl der verfügbaren Publikationen und Daten in Wirtschaft, Medizin und Forschung rapide zugenommen. Alleine in der medizinischen Metadatenbank PubMed ergibt beispielsweise eine Suche nach dem Begriff Covid-19 eine Treffermenge von 71’376 Publikationen (Abfrage am 6.11.2020), und dies notabene weniger als ein Jahr nach der offiziellen Namensgebung.

Es ist klar, dass solche Informationsmengen nicht mehr sinnvoll manuell bearbeitet werden können. Zum Einsatz kommt deswegen oft das sogenannte Text- und Data Mining (TDM). Text- und Data Mining ist ein Sammelbegriff für automatische Analyseverfahren, mit deren Hilfe große Mengen von Informationen durchsucht und in Beziehung zueinander gesetzt werden können, um so Trends und neue Zusammenhänge aufzuzeigen. Der technische Prozess bedingt, dass die zu Grunde liegenden Daten vervielfältigt und gespeichert werden. Handelt es sich bei diesen Daten um urheberrechtlich geschützte Werke, musste zur Anwendung dieser Verfahren in der Schweiz bisher die ausdrückliche Zustimmung der Rechteinhaber vorliegen. Oft war dies mit zusätzlichen finanziellen Vergütungen verbunden. Mit Inkrafttreten des revidierten Urheberrechtsgesetzes im April 2020 wurde die Anwendung von TDM für wissenschaftliche Forschung erleichtert (Art. 24d URG). Neu entfällt die Einwilligungserfordernis, sofern ein rechtmässiger Zugang zu den betreffenden Daten oder Texten besteht.

Für Forschende an der HSLU bedeutet dies, dass TDM bei Publikationen und in Datenbanken, die durch die HSLU Bibliotheken lizenziert wurden, sowie Open Access Publikationen legal angewendet werden können. Im Bereich Publikationen verfügen viele Verlage über allgemeine Regelungen und Schnittstellen (APIs) für Einsatz von Text- und Datamining Verfahren. Informationen dazu und Links zu unterschiedlichen Verlagen und Datenbanken sowie Kontaktdaten bei Fragen sind neu auf der Website der ZHB Luzern zu finden.

Silvio Gruber