logo_claranlp-med

COMPUTATIONAL LINGUISTICS APPROACHES TO READABILITY AND AUTOMATIC SIMPLIFICATION OF MEDICAL DISCOURSE (CLARA-MED)

WHAT IS CLARA-MeD?

(Resumen en español más abajo)
The myriad of terms in medical texts is a language barrier to patient’s informed decision making. Laymen and patients often require explanations about technical terms in clinical trials, medical records or medication leaflets. However, healthcare professionals lack enough time to provide full details about pathologies or procedures during consultation. This is especially critical when it comes to patients’ participation in screenings for preventive care and clinical trials (CT). Protocols and CT announcements require being explainable enough for candidate patients to understand the procedures they could engage in.

To alleviate this language gap, automatic natural language processing methods may enhance the accessibility of health information and increase the patients’ health literacy. One of the approaches is term simplification; i.e. substituting a difficult-to-read word (e.g. «amigdalectomía») with an easier or more explicative paraphrase (e.g. «operación de anginas»).

The CLARA-MeD project aims at:

  1. Developing linguistic resources for automatic medical term simplification in Spanish.
  2. Conducting experiments in automatic text simplification.

The project involves the following work:
  1. A comparable corpus of technical and laymen texts will be collected to map and extract patient equivalences of medical terms.
  2. A simplified medical lexicon of Spanish, SimpMedLexSp, will gather equivalences between technical and patient terms.
  3. Experiments will be run to compare lexical substitution approaches, methods based on state-of-the-art neural networks, and hybrid approaches.

Results might interest:
  1.  terminologists, especially the Medical Terminology Unit of the Spanish Royal Academy of Medicine.
  2. the biomedical natural language processing research community working in Spanish.

The project is framed in the social challenge of improving the patients’ understanding of medical language, which is a must to avoid information manipulation and medical fake news.

Resumen en español

La infinidad de términos en los textos médicos es una barrera lingüística para la toma de decisiones bien informada del paciente. Los pacientes y usuarios no especializados a menudo requieren explicaciones sobre los términos técnicos de los estudios clínicos, los informes médicos o los prospectos de medicamentos. Sin embargo, los profesionales sanitarios carecen del tiempo suficiente durante la consulta para aportar detalles sobre sus patologías o procedimientos. Esto es especialmente importante para la participación de los pacientes en pruebas y exámenes de cuidados preventivos así como en ensayos clínicos. Los protocolos y anuncios de ensayos clínicos han de ser suficientemente comprensibles para que los pacientes candidatos comprendan los procedimientos a los que se podrían someter.

Para aliviar esta brecha lingüística, existen métodos automáticos de procesamiento del lenguaje natural que pueden mejorar la accesibilidad a la información clínica o de salud y aumentar la alfabetización sanitaria de los pacientes. Uno de los enfoques es la simplificación de términos. Estos métodos permiten sustituir un término difícil de comprender (p. ej., «amigdalectomía») con una paráfrasis más explicativa (p. ej., «operación de anginas»).

El proyecto CLARA-MeD tiene como objetivo:
  1. Desarrollar recursos lingüísticos para la simplificación automática de términos médicos en español.
  2. Realizar experimentos en simplificación automática de textos en dominio médico.

En concreto, se llevarán a cabo los siguientes trabajos:
  1. Se recogerá un corpus comparable de textos médicos técnicos y simplificados para extraer equivalencias de términos médicos en registro paciente.
  2. Se creará un léxico médico simplificado del español, SimpMedLexSp, con equivalencias entre términos técnicos y orientados al paciente.
  3. Se llevarán a cabo experimentos para comparar enfoques de simplificación basados en sustitución léxica, métodos basados en redes neuronales de última generación y enfoques híbridos.

Los resultados del proyecto CLARA-MeD pueden ser de interés para:
  1. La comunidad investigadora en procesamiento del lenguaje natural biomédico que trabaja en español
  2. Terminólogos, especialmente la Unidad de Terminología Médica de la Real Academia Nacional de Medicina de España.

El proyecto se enmarca en el reto social de mejorar la comprensión del lenguaje médico, que es indispensable para evitar la manipulación informativa y los bulos de información médica.    

CLARA-MeD RESEARCH TEAM

RESEARCHERS

LEONARDO CAMPILLOS-LLANOS

Científico titular (Tenure Track Scientist)
ILLA - CSIC
leonardo.campillos AT csic.es

ADRIÁN CAPLLONCH CARRIÓN

Médico psiquiatra (Medical psychiatrist)
Centro de Salud Retiro, Hospital General Universitario Gregorio Marañón
adrian.capllonch AT salud.madrid.org

CRISTINA GONZÁLEZ SÁNCHEZ

Lexicógrafa (Lexicographer)
Unidad de Terminología Médica, Real Academia Nacional de Medicina de España (Medical Terminology Unit, Spanish National Academy of Medicine)
utm AT ranm.es

ANA VALVERDE MATEOS

Lexicógrafa (Lexicographer)
Unidad de Terminología Médica, Real Academia Nacional de Medicina de España (Medical Terminology Unit, Spanish National Academy of Medicine)
avalverde AT ranm.es

OTHER COLLABORATORS

ANA ROSA TERROBA REINARES

Doctora especialista en comunicación sanitaria (PhD, specialist in Health Communication)
Fundación Rioja Salud

SOFÍA ZAHKIR PUIG

Personal investigador en formación (Research trainee)
ILLA - CSIC
sofia.zakhir AT cchs.csic.es

ROCÍO BARTOLOMÉ RODRIGUEZ

Profesora ayudante doctora en estancia de investigación en CSIC
Universidad Autónoma de Madrid

JÓNATHAN HERAS VICENTE

Profesor contratado doctor interino
Grupo de Informática de la Universidad de La Rioja

Federico Ortega Riba

Personal investigador en formación (Research trainee)
ILLA - CSIC

ACKNOWLEDGMENTS

  • MARISOL HERNANDO TUNDIDOR, Unidad de tratamiento de la información(CCHS, CSIC)
  • YARA MOSTAZO FERNÁNDEZ, Unidad de tratamiento de la información (CCHS, CSIC)

CLARA-MeD RESOURCES

CORPUS

  • Corpus CLARA-MeD: A collection of 24 298 pairs of professional and simplified texts (>96 million tokens) for automatic medical text simplification in Spanish. A parallel corpus with a subset of 3800 sentence pairs of professional and laymen variants (149 862 tokens) is released as a benchmark for medical text simplification. https://digital.csic.es/handle/10261/269887
    If you use this corpus, please, cite as follows:
    Campillos-Llanos, Leonardo, Ana Rosa Terroba Reinares, Sofía Zakhir Puig, Ana Valverde-Mateos, and Adrián Capllonch-Carrión (2022) «Building a comparable corpus and a benchmark for Spanish medical text simplification». Procesamiento del lenguaje natural, nº 69, pp. 189-196. → This article describes the process and criteria to simplify the technical sentences in two versions: at the syntax level, and both at the syntax and lexical levels.
  • A new collection of sentences simplified by experts is released at this address: https://digital.csic.es/handle/10261/346579. If you use this dataset, please, cite as follows:
    Campillos-Llanos, Leonardo, Rocío Bartolomé Rodríguez, Ana Rosa Terroba Reinares (2024) «Enhancing the understanding of clinical trials with a sentence-level simplification dataset». Procesamiento del lenguaje natural, nº 72. → This article describes the process and criteria to simplify the technical sentences in two versions: at the syntax level, and both at the syntax and lexical levels.

LEXICON

  • SimpMedLexSp: a lexicon of technical and laymen medical terms. Sample file available here. If you use this dataset, please, cite as follows:
    Campillos-Llanos, Leonardo, Ana Rosa Terroba, Rocío Bartolomé, Ana Valverde, Cristina González, Adrián Capllonch, Jónathan Heras (2024) «Replace, Paraphrase or Fine-tune? Evaluating Automatic Simplification for Medical Texts in Spanish». Proc. of LREC-COLING 2024, Torino, Italy, May 2024.

DEMO

  • CLARA-MeD tool: a system to help readers understand medical texts. Try it here!

OTHER

  • Readability score analysis: compute the Inflesz score of technical and simplified sentences (Python script).
  • Frequency-based complex word identification (Python script).
  • Embedding-based sentence aligner (Python script): given a comparable corpus of technical and simplified sentences, obtain aligned parallel sentences.
  • Trained neural-based and prompt-learning-based models for simplification are available at the CLARA-MeD HuggingFace repository.
  • N-grams from the CLARA-MeD corpus: 2-grams, 3-grams and 4-grams extracted from:
    • Texts in technical register (source)
    • Texts in simplified register (target)

    Files available at this address.

PUBLIC DISSEMINATION

Slide