Estamos construyendo una base de datos bioacústica de origen ético para comprender las enfermedades como nunca antes.
La voz humana suele considerarse una huella única para cada individuo y contiene biomarcadores que se han relacionado con diversas enfermedades, desde la enfermedad de Parkinson a la demencia, los trastornos del estado de ánimo y los cánceres. La voz contiene complejos marcadores acústicos que dependen de la coordinación entre respiración, fonación, articulación y prosodia. Los últimos avances en tecnología de análisis acústico, en particular los vinculados al aprendizaje automático, han arrojado nuevos datos para la detección de enfermedades. Como biomarcador, la voz es única, rentable, fácil y segura de recoger en entornos con pocos recursos. Además, la voz humana no sólo contiene el habla, sino también otros biomarcadores acústicos, como los sonidos respiratorios y la tos.
Cada vez son más las empresas de IA que utilizan la voz y otros datos acústicos, como los sonidos de la tos, para detectar afecciones como el agotamiento, patologías vocales y COVID-19, la más reciente. Aunque los resultados preliminares son prometedores, siguen existiendo muchas limitaciones en la investigación de la IA de la voz. En la actualidad, la mayoría de las bases de datos de voz disponibles son de tamaño reducido y calidad acústica cuestionable, carecen de etiquetado de datos para más de una afección y suelen representar a una única población homogénea. La voz se considera un identificador biométrico sujeto a la normativa HIPAA, lo que limita las colaboraciones multiinstitucionales debido a consideraciones éticas, obstaculizando en última instancia la creación de conjuntos de datos de voz accesibles, sólidos y diversos.
Para que la voz se convierta en un biomarcador de la salud, existe una necesidad acuciante de disponer de una base de datos de voz amplia, de alta calidad, multiinstitucional y diversa, vinculada a otros biomarcadores de la salud a partir de diversos datos de diferentes modalidades (demográficos, de imagen, genómicos, factores de riesgo, etc.) para impulsar la investigación de la IA de la voz y responder a preguntas clínicas tangibles. Este esfuerzo sólo es posible mediante colaboraciones multiinstitucionales entre expertos en voz e ingenieros de IA, con el apoyo de bioéticos y científicos sociales para garantizar la creación de bases de datos de voz de origen ético que representen a nuestras poblaciones.
Nuestro grupo aspira a desarrollar la voz como biomarcador de salud utilizado en la atención clínica. Para ello, generaremos una gran base de datos de voz multiinstitucional, de origen ético y diversa, vinculada a biomarcadores de salud multimodales para impulsar la investigación de la IA de la voz. A continuación, crearemos modelos predictivos para ayudar en la detección, el diagnóstico y el tratamiento de una amplia gama de enfermedades, incluidas varias enfermedades con necesidades clínicas insatisfechas. La recopilación de datos será posible gracias al desarrollo de un software de vanguardia disponible como aplicación para teléfonos inteligentes vinculada a los historiales médicos electrónicos (HCE). La recogida de datos se combinará con otros biomarcadores sanitarios, como la radiómica y la genómica. Es importante destacar que este proyecto será pionero en el uso de tecnología de aprendizaje federado para crear modelos de aprendizaje automático multicéntricos protegiendo estrictamente la privacidad de los datos. Se abordarán las crecientes preocupaciones éticas en torno a la IA de voz, como las implicaciones legales de la identificación de voz, la piratería de la IA de voz y el intercambio y la privacidad de los datos de voz, así como el impacto de la diversidad de género y racial en la IA de voz.
Basándose en la literatura existente y en la investigación en curso en diferentes campos de la investigación de la voz, nuestro grupo ha identificado 5 categorías de cohortes de enfermedades para las que se han asociado cambios en la voz a enfermedades específicas con necesidades no satisfechas bien reconocidas. Centraremos nuestros esfuerzos de adquisición de datos en las siguientes categorías de enfermedades:
Trastornos de la voz: (Cánceres laríngeos, parálisis de las cuerdas vocales, lesiones laríngeas benignas)
Trastornos neurológicos y neurodegenerativos: (Alzheimer, Parkinson, ictus, ELA)
Trastornos psiquiátricos y del estado de ánimo: (Depresión, esquizofrenia, trastornos bipolares
Trastornos respiratorios: (Neumonía, EPOC, insuficiencia cardíaca)
Trastornos pediátricos de la voz y el habla: (Retrasos en el habla y el lenguaje, autismo)
A medida que el mundo de la tecnología reconoce cada vez más la voz como un biomarcador de la salud y la IA de voz gana la atención de multinacionales como Google, Amazon, Mozilla y Apple, entre otras, surgen muchas cuestiones importantes relacionadas con la protección de la privacidad del paciente, la representación ética y justa de la población y la precisión clínica. Como grupo multidisciplinar de expertos académicos, nuestro objetivo es influir y guiar al mundo de la IA de voz garantizando la protección de los pacientes mediante principios éticos y de equidad, y crear infraestructuras innovadoras y seguras para difundir datos obtenidos éticamente para las futuras generaciones de investigadores de IA de voz.
¿Quiere saber más?