Merkmalsextraktion aus klinischen Routinedaten mittels Text-Mining

Grundel, Bastian; Bernardeau, Marc-Antoine; Langner, Holger; Schmidt, Christoph; Böhringer, Daniel; Ritter, Marc; Rosenthal, Paul; Grandjean, Andrea; Schulz, Stefan; Daumke, Philipp; Stahl, Andreas

doi:10.1007/s00347-020-01177-4

Merkmalsextraktion aus klinischen Routinedaten mittels Text-Mining

Extraction of features from clinical routine data using text mining

Originalien
Published: 28 July 2020

Volume 118, pages 264–272, (2021)
Cite this article

Der Ophthalmologe Aims and scope Submit manuscript

695 Accesses
1 Citation
1 Altmetric
Explore all metrics

Zusammenfassung

Hintergrund

Anti-VEGF-Medikamente prägen heute die Therapie von Makulaerkrankungen. In diesem Zusammenhang wird eine Fülle zusätzlicher Daten erhoben. Damit ließen sich Behandlungsverläufe besser verstehen und vorhersagen. Allerdings sind diese Informationen meist nur in freitextlicher Form verfügbar.

Ziel der Arbeit

Wie weit auswertbare Information aus Kliniktexten automatisch gewonnen werden kann, sollte in einer retrospektiven Studie analysiert werden. Ziel war die Einschätzung der Eignung eines zu diesem Zweck parametrierten Text-Mining-Verfahrens.

Material und Methoden

Es standen Daten zu 3683 Patienten zur Verfügung, davon 40.485 Arztbriefe. Für einen Teil waren die interessierenden Daten (Visus, Tensio und Begleitdiagnosen) auch strukturiert erfasst worden und konnten so als Goldstandard für die Textanalyse dienen. Diese wurde mit dem System Averbis Health Discovery durchgeführt. Zur Optimierung auf die Extraktionsaufgabe wurde dieses mit Regelwissen sowie mit einem deutschsprachigen Fachvokabular für die internationale Medizinterminologie SNOMED CT angereichert.

Ergebnisse

Die Übereinstimmung der Datenextrakte mit den strukturierten Datenbankeinträgen wird durch den F1-Wert beschrieben. Hierbei ergab sich eine Übereinstimmung von 94,7 % für den Visus, 98,3 % für die Tensio und 94,7 % für begleitende Diagnosen. Die manuelle Analyse nicht übereinstimmender Fälle zeigte zur Hälfte, dass Textinhalte aus verschiedenen Gründen von Datenbankinhalten abwichen. Nach einer daraus berechneten Adjustierung lagen die F1-Werte noch 1–3 % über den zuvor ermittelten Werten.

Diskussion

Für den betrachteten Arztbriefkorpus und die beschriebene Fragestellung sind Text-Mining-Verfahren sehr gut geeignet, um Inhalte zur weiteren Auswertung strukturiert aus Kliniktexten zu extrahieren.

Abstract

Background

Anti-VEGF drugs are currently used to treat macular diseases. This has led to a wealth of additional data, which could help understand and predict treatment courses; however, this information is usually only available in free text form.

Objective

A retrospective study was designed to analyze how far interpretable information can be obtained from clinical texts by automated extraction. The aim was to assess the suitability of a text mining method that was customized for this purpose.

Material and methods

Data on 3683 patients were available, including 40,485 discharge letters. Some of the data of interest, e.g. visual acuity (VA), intraocular pressure (IOP) and accompanying diagnoses, were not only recorded textually but also entered in a database and could thus serve as a gold standard for text analysis. The text was analyzed using the Averbis Health Discovery text mining platform. To optimize the extraction task, rule knowledge and a German language technical vocabulary linked to the international medical terminology standard systematized nomenclature of medicine (SNOMED CT) was manually added.

Results

The correspondence between extracted data and the structured database entries is described by the F1 value. There was agreement of 94.7% for VA, 98.3% for IOP and 94.7% for the accompanying diagnoses. Manual analysis of noncorresponding cases showed that in 50% text content did not match the database content for various reasons. After an adjustment, F1 values 1–3% above the previously determined values were obtained.

Conclusion

Text mining procedures are very well suited for the considered discharge letter corpus and the problem described in order to extract contents from clinical texts in a structured manner for further evaluation.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Log in via an institution

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Institutional subscriptions

Notes

http://topos.averbis.de/.
Die Terminologie steht auf den Seiten der Averbis GmbH (Freiburg, Deutschland) kostenfrei zum Download zur Verfügung: https://topos.averbis.de/.
https://health-discovery.io.
Auf Wunsch kann ein Zugang zu einer webbasierten Averbis Health Discovery-Instanz eingerichtet werden, worin dann die TOPOS-Extraktionspipeline getestet werden kann.
Über die Averbis-Homepage kostenlos verfügbar.

Literatur

Griffon N, Charlet J, Darmoni SJ (2014) Managing free text for secondary use of health data. Yearb Med Inform 9:167–169
Article CAS Google Scholar
Schlegel DR, Ficheur G (2017) Secondary use of patient data: review of the literature published in 2016. Yearb Med Inform 26(1):68–71
Article CAS Google Scholar
Safran C, Bloomrosen M, Hammond WE, Labkoff S, Markel-Fox S, Tang PC et al (2007) Toward a national framework for the secondary use of health data: an American Medical Informatics Association White Paper. J Am Med Inform Assoc 14(1):1–9
Article Google Scholar
Wang Y, Wang L, Rastegar-Mojarad M, Moon S, Shen F, Afzal N et al (2018) Clinical information extraction applications: a literature review. J Biomed Inform 77:34–49
Article Google Scholar
Böhringer D, Lang SJ, Daniel MC, Lapp T, Reinhard T (2019) Automatisierte Zuordnung von ICD- und Alpha-ID-Codes zu „Real-World“-Arztbriefdiagnosen durch die „word2vec“-Methode. Klin Monbl Augenheilkd 236(12):1413–1417
Article Google Scholar
Névéol A, Dalianis H, Velupillai S, Savova G, Zweigenbaum P (2018) Clinical natural language processing in languages other than English: opportunities and challenges. J Biomed Semantics 9(1):12
Article Google Scholar
Bodenreider O, Cornet R, Vreeman DJ (2018) Recent developments in clinical terminologies – SNOMED CT, LOINC, and Rxnorm. Yearb Med Inform 27(1):129–139
Article Google Scholar
Pokora RM, Le Cornet L, Daumke P, Mildenberger P, Zeeb H, Blettner M (2020) Validation of Semantic Analyses of Unstructured Medical Data for Research Purposes. Gesundheitswesen 82(S02):S158–S164
Kluegl P, Toepfer M, Beck PD, Fette G, Puppe F (2016) UIMA Ruta: rapid development of rule-based information extraction applications. Nat Lang Eng 22(1):1–40
Article Google Scholar
Beurteilung eines binären Klassifikators. Wikipedia. https://de.wikipedia.org/wiki/Beurteilung_eines_binären_Klassifikators. Letzter Zugriff 30. Jan. 2020
Wenzel M, Dick HB, Scharrer A, Schayan K, Reinhard T (2018) Umfrage von BDOC, BVA, DGII und DOG zur ambulanten und stationären Intraokularchirurgie: Ergebnisse für das Jahr 2017. Ophthalmo-Chirurgie 30:255–266
Google Scholar
Li JQ, Welchowski T, Schmid M, Mauschitz MM, Holz FG, Finger RP (2019) Prevalence and incidence of age-related macular degeneration in Europe: a systematic review and meta-analysis. Br J Ophthalmol. https://doi.org/10.1136/bjophthalmol-2019-314422
Article PubMed PubMed Central Google Scholar
O’Mara-Eves A, Thomas J, McNaught J, Miwa M, Ananiadou S (2015) Using text mining for study identification in systematic reviews: a systematic review of current approaches. Syst Rev 4:5
Article Google Scholar
Willett DL, Kannan V, Chu L, Buchanan JR, Velasco FT, Clark JD et al (2018) SNOMED CT concept hierarchies for sharing definitions of clinical conditions using electronic health record data. Appl Clin Inform 9(3):667–682
Article Google Scholar
Hashemian Nik D, Kasáč Z, Goda Z, Semlitsch A, Schulz S (2019) Building an experimental German user interface terminology linked to SNOMED CT. Stud Health Technol Inform 264:153–157
PubMed Google Scholar
Shen F, Zhao Y, Wang L, Mojarad MR, Wang Y, Liu S et al (2019) Rare disease knowledge enrichment through a data-driven approach. BMC Med Inform Decis Mak 19(1):32
Article Google Scholar

Download references

Danksagung

TOPOs wurde vom BMBF (Bundesministerium für Bildung und Forschung) im Rahmen des Förderschwerpunktes „Digitale Gesundheitsversorgung“ gefördert.

Author information

Authors and Affiliations

Klinik und Poliklinik für Augenheilkunde, Universitätsmedizin Greifswald, Greifswald, Deutschland
Bastian Grundel, Marc-Antoine Bernardeau & Andreas Stahl
Professur Medieninformatik, Hochschule Mittweida, Mittweida, Deutschland
Holger Langner & Marc Ritter
Institute for Visual and Analytic Computing, Universität Rostock, Rostock, Deutschland
Christoph Schmidt & Paul Rosenthal
Klinik für Augenheilkunde, Universitätsklinikum Freiburg, Medizinische Fakultät, Universität Freiburg, Freiburg, Deutschland
Daniel Böhringer
Averbis GmbH, Freiburg, Deutschland
Andrea Grandjean, Stefan Schulz & Philipp Daumke

Authors

Bastian Grundel
View author publications
You can also search for this author in PubMed Google Scholar
Marc-Antoine Bernardeau
View author publications
You can also search for this author in PubMed Google Scholar
Holger Langner
View author publications
You can also search for this author in PubMed Google Scholar
Christoph Schmidt
View author publications
You can also search for this author in PubMed Google Scholar
Daniel Böhringer
View author publications
You can also search for this author in PubMed Google Scholar
Marc Ritter
View author publications
You can also search for this author in PubMed Google Scholar
Paul Rosenthal
View author publications
You can also search for this author in PubMed Google Scholar
Andrea Grandjean
View author publications
You can also search for this author in PubMed Google Scholar
Stefan Schulz
View author publications
You can also search for this author in PubMed Google Scholar
Philipp Daumke
View author publications
You can also search for this author in PubMed Google Scholar
Andreas Stahl
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Philipp Daumke.

Ethics declarations

Interessenkonflikt

A. Grandjean und S. Schulz stehen in einem Beschäftigungsverhältnis zur Fa. Averbis GmbH, die das in der Studie verwendete System Health Discovery entwickelt und vertreibt. P. Daumke ist geschäftsführender Gesellschafter der Averbis GmbH. B. Grundel, M.‑A. Bernardeau, H. Langner, C. Schmidt, D. Böhringer, M. Ritter, P. Rosenthal und A. Stahl geben an, dass kein Interessenkonflikt besteht.

Für die Studie kamen ausschließlich anonymisierte Klinikdaten zur Anwendung, sodass nach geltendem Recht kein Votum einer Ethikkommission erforderlich war. Für die Vollständigkeit der manuell durchgeführten Anonymisierung verbürgen sich die klinischen Projektpartner.

Additional information

Die Autoren Philipp Daumke und Andreas Stahl haben zu gleichen Teilen zum Manuskript beigetragen.

Rights and permissions

Reprints and permissions

About this article

Cite this article

Grundel, B., Bernardeau, MA., Langner, H. et al. Merkmalsextraktion aus klinischen Routinedaten mittels Text-Mining. Ophthalmologe 118, 264–272 (2021). https://doi.org/10.1007/s00347-020-01177-4

Download citation

Published: 28 July 2020
Issue Date: March 2021
DOI: https://doi.org/10.1007/s00347-020-01177-4

Schlüsselwörter

Keywords

Access this article

Log in via an institution

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Institutional subscriptions

Merkmalsextraktion aus klinischen Routinedaten mittels Text-Mining

Zusammenfassung

Hintergrund

Ziel der Arbeit

Material und Methoden

Ergebnisse

Diskussion

Abstract

Background

Objective

Material and methods

Results

Conclusion

Access this article

Notes

Literatur

Danksagung

Author information

Authors and Affiliations

Corresponding author

Ethics declarations

Interessenkonflikt

Additional information

Rights and permissions

About this article

Cite this article

Share this article

Schlüsselwörter

Keywords

Search

Navigation