“Sin datos solamente eres una persona con una opinión”
W. Edwards Deming
(Científico de los datos)
Autor: Juan B. López-Messa
Complejo Universitario Hospitalario de Palencia.
© REMI, http://medicina-intensiva.com. Julio 2017.
Autor: Juan B. López-Messa
Complejo Universitario Hospitalario de Palencia.
© REMI, http://medicina-intensiva.com. Julio 2017.
DEFINICIÓN
El término Big data, macrodatos o datos masivos, se refiere al almacenamiento de grandes volúmenes de datos y su procesamiento y tratamiento mediante algoritmos matemáticos con el fin de establecer correlaciones entre ellos, predecir tendencias y ayudar en la toma de decisiones. El término Big data es un término vago sobre el que no existe un acuerdo universal. Una definición podría ser cualquier cantidad de información de alrededor de un petabyte o más.
La disciplina dedicada al Big data o datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación, y se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos. Su desarrollo ha venido propiciado por el progreso en la ingeniería informática y la inteligencia artificial.
De una forma simple el Big data se puede considerar como el océano de datos digitales que las personas generan en su vida cotidiana, cuando utilizan teléfonos móviles, realizan búsquedas por internet o transferencias bancarias, se conectan a redes sociales o realizan compras a través de tarjetas de crédito o comercio electrónico.
TIPOS DE BIG DATA
Los datos que se contienen dentro de un Big data pueden ser:
- Datos estructurados: datos que tienen bien definidos su longitud y su formato, como las fechas, los números o las cadenas de caracteres. Se almacenan en tablas. Un ejemplo son las bases de datos relacionales y las hojas de cálculo.
- Datos no estructurados: datos en el formato tal y como fueron recolectados, carecen de un formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar su información a tipos básicos de datos. Algunos ejemplos son los ficheros PDF, documentos multimedia, e-mails o documentos de texto.
- Datos semiestructurados: datos que no se limitan a campos determinados, pero que contienen marcadores para separar los diferentes elementos. Es una información poco regular como para ser gestionada de una forma estándar. Estos datos poseen sus propios metadatos semiestructurados que describen los objetos y las relaciones entre ellos, y pueden acabar siendo aceptados por convención. Un ejemplo es la información en HTML, el XML o el JSON.
¿DE DÓNDE PROVIENEN TODOS ESTOS DATOS?
· Generados por las personas: el hecho de enviar correos electrónicos o mensajes por WhatsApp, publicar un estado en Facebook, twitear contenidos o responder a una encuesta por la calle son cosas que hacemos a diario y que crean nuevos datos y metadatos que pueden ser analizados. Se estima que cada minuto del día se envían más de 200 millones de e-mails, se comparten más de 700.000 piezas de contenido en Facebook, se realizan dos millones de búsquedas en Google o se editan 48 horas de vídeo en YouTube. Por otro lado, la labor clásica de introducir registros en una base de datos o información en una hoja de cálculo son otras formas de generar estos datos.
· Transacciones de datos: la facturación, las llamadas o las transacciones entre cuentas generan información que tratada adecuadamente genera datos relevantes. El ejemplo más claro lo encontraremos en las transacciones bancarias; lo que un usuario conoce como un ingreso monetario, la computación lo interpretará como una acción llevada a cabo en una fecha y momento determinado, en un lugar concreto, entre unos usuarios registrados.
· E-marketing y web: generamos una gran cantidad de datos cuando navegamos por internet. Con la web 2.0 los mismos usuarios se convierten en generadores de contenidos gracias a su interacción con el sitio. Existen muchas herramientas de rastreo utilizadas en su mayoría con fines de marketing y análisis de negocio. Incluso los movimientos de ratón quedan grabados en mapas de calor y queda registro de cuánto pasamos en cada página y cuándo las visitamos.
· Machine to Machine (M2M): son las tecnologías que comparten datos con dispositivos: medidores, sensores de temperatura, de luz, de altura, de presión, de sonido, etc, que transforman las magnitudes físicas o químicas y las convierten en datos. Existen desde hace décadas, pero la llegada de las comunicaciones inalámbricas ha revolucionado el mundo de los sensores. Algunos ejemplos son los GPS en la automoción o los sensores de signos vitales en la medicina.
· Biométrica: son el conjunto de datos que provienen de la seguridad, defensa y servicios de inteligencia. Son cantidades de datos generados por lectores biométricos como escáneres de retina, escáneres de huellas digitales, o incluso lectores de cadenas de ADN. El propósito de estos datos es proporcionar mecanismos de seguridad y suelen estar custodiadas por los ministerios de defensa y departamentos de inteligencia. Un ejemplo de aplicación es el cruce de ADN entre una muestra de un crimen y una muestra en una base de datos.
UTILIDAD
Este conjunto de tecnologías se pueden utilizar en una gran variedad de ámbitos, como los siguientes, que se exponen solo a modo de ejemplo:
1. Empresarial
Marketing: a través de las búsquedas por internet o visitas a páginas web, se generan datos de los usuarios que se emplean por empresas de marketing para ofrecer distintos productos según el perfil de los usuarios cuyos datos se han registrado.
Redes Sociales: Facebook, Twitter y LinkedIn, disponen de imponentes bases de datos de sus usuarios.
Consumo: Amazon es líder en ventas cruzadas. Su éxito se basa en la masiva obtención de datos basando los patrones de compra de un usuario cruzados con los datos de compra de otro. Netflix sigue un sistema similar en base a las preferencias de sus clientes.
Big Data e intimidad: empresas de seguridad, cuerpos policiales o de defensa nacional, utilizan sistemas de almacenamiento de datos masivos de diversas características.
2. Deportes
Tanto a nivel profesional como aficionado y para diversos deportes o actividades físicas, se han desarrollado distintas aplicaciones como Runtastic, Garmin o Nike+, que facilitan datos de actividad física, movimiento y localización, que pueden ser almacenados.
3. Investigación
Defensa y seguridad: para generar entornos de defensa ante ciberataques o de información de inteligencia militar o civil.
Sostenibilidad: a través de sensores ambientales en diversas localizaciones que monitorizan situaciones medioambientales diversas, frío, calor, humedad, prevención de incendios forestales, etc.
Salud y medicina: aspecto en el que pretendemos profundizar en esta revisión.
Los datos masivos están presentes cada vez más en nuestras vidas, y su forma de utilizarlos implica cambiar nuestra mentalidad, aunque apenas nos damos cuenta de sus aplicaciones. Big data ilustra lo que algunos ya consideran el comienzo de una era, la de los datos masivos. La recolección de datos comienza a ser tan barata que ya no necesitaremos establecer una muestra para estudiar un hecho como forma de encontrar conocimiento, sino que podremos analizar el conjunto total de datos, lo que nos permitirá establecer resultados mucho más precisos, más baratos y también más inesperados. Pero una correlación no es una causalidad y estamos acostumbrados a buscar causas en todo, por lo que esta nueva era implica una adaptación de mentalidad. Deberemos estar dispuestos a aceptar resultados basados en la correlación sin entender completamente el por qué, la causa [1].
Por otro lado, la teoría económica clásica describe la conversión cuantitativa de 3 tipos de elementos primarios de la producción (el capital, la mano de obra y las materias primas) en productos (bienes y servicios). Esta relación técnica se conoce como función de producción. Pero a medida que avanza la tecnología, esta relación cuantitativa cambia, por lo general requiere menos entradas para producir la misma o más salida. La revolución actual en la gestión de datos deja claro que un cuarto tipo de elemento primario, la información, será tan importante como los otros en el futuro de muchas industrias [2]. Incluso se ha llegado a afirmar que los datos van a desplazar al petróleo como la materia prima más preciosa [3].
BIG DATA E INFORMÁTICA DE LA ASISTENCIA SANITARIA
1. Conceptos generales
Los datos son la base de cualquier toma de decisiones. Los Big data son necesarios para el desarrollo y la acción humanitaria. El simple registro de nacimientos y muertes son necesarios para conocer realidades y mejorar la calidad de vida de las personas. Incluso la ONU ya se plantea dentro de sus objetivos de desarrollo sostenible, la necesidad de que todos los países dispongan de diferentes bases de datos como las referidas [4].
Actualmente se almacenan grandes cantidades de datos e información en los registros médicos electrónicos, pero no se está utilizando todavía dicha información en todo su potencial para generar conocimiento, y los clínicos no son conscientes de dicha potencialidad en el cuidado de los pacientes [5]. En los últimos años se ha generado una masiva cantidad de datos digitalizados en el entorno sanitario. La integración de estos datos en el denominado Big data ofrece el potencial de mejorar la atención sanitaria, con acceso de los profesionales a un conocimiento que facilite su toma de decisiones y proporciona la posibilidad de realizar estudios observacionales en una escala y a una velocidad a la que no se pueden aproximar los ensayos clínicos [6]. De hecho incluso la FDA americana considera que la evidencia obtenida a través de información del mundo real y no solo de los ensayos clínicos, debe emplearse para tomar decisiones regulatorias de aprobación de productos sanitarios [7].
Sin embargo, aun con la esperanza de que el Big data podría suplantar al ensayo clínico, recientemente éste ha sido defendido también por la FDA como todavía el único camino para generar evidencia definitiva cuando el análisis de grandes bases de datos genere hallazgos en desacuerdo con la sabiduría convencional [8].
La medicina se está convirtiendo en una ciencia de la información. En pocos años dispondremos de billones de datos de cada individuo, y el desafío será desarrollar la tecnología de la información que pueda conducir dichos datos a hipótesis reales sobre los propios individuos [9].
No existe una definición uniforme en lo que se refiere a Big Data en sanidad y cuidados en salud, pero se caracteriza por las 5 V: volumen, velocidad, variedad, veracidad y valor. El volumen se refiere a grandes cantidades de datos, la velocidad a la cual se generan nuevos datos, la variedad en relación a la complejidad de los mismos, la veracidad a la autenticidad de los datos y el valor a la calidad de los mismos [10].
Las fuentes de datos se han desarrollado vertiginosamente, como dispositivos implantables o de prenda (“wearables”), teléfonos inteligentes, sensores en tiempo real, y sobre todo los registros sanitarios electrónicos (RSE) y sistemas de información clínica. Este concepto ha hecho preciso el desarrollo de diferentes herramientas analíticas para su gestión y obtención de resultados.
Aunque existe un especial entusiasmo hacia los Big data, todavía existen grandes desafíos en su utilización y su incorporación de resultados al conocimiento científico médico. Esto se debe a que su uso es complejo y la mayoría de los clínicos no están todavía familiarizados con su empleo y sus posibles aplicaciones. Es necesaria la implicación y colaboración de diferentes actores y el desarrollo de auténticos especialistas en informática de la salud.
2. Procedencia de datos para generar Big data de salud
La informática de la salud se está introduciendo en una nueva era tecnológica en el manejo de datos masivos, ofreciendo un ilimitado potencial de información. La extracción de datos y los análisis de los datos masivos pueden ayudar a obtener los objetivos para el diagnóstico, el tratamiento y la curación de muchos pacientes, con el objetivo final de mejorar el sistema y la calidad de los cuidados que se proporcionan. La informática de la salud es una combinación de ciencia de la información y ciencia de la computación dentro del sistema sanitario. Existen actualmente varias áreas de investigación dentro de la informática de la salud, que incluyen la bioinformática, la informática de la imagen (generalmente neuroinformática), la informática clínica, la informática de salud pública y la bioinformática translacional [11].
Atendiendo a la definición basada en las 5 V, los datos obtenidos en la informática de la salud exhiben generalmente un gran volumen, pues proceden de largas cantidades de registros obtenidos de los pacientes, como imágenes de resonancia magnética o estudios genéticos, o bien datos a nivel poblacional. La gran velocidad se produce cuando se obtienen rápidamente dichos datos, como por ejemplo cuando se monitorizan en tiempo real condiciones de los pacientes a través de sensores médicos o bien obteniendo datos en episodios epidémicos a través de entradas en redes sociales de Internet. Esa información no debería ser incompleta o incluso errónea, y tener auténtica veracidad. La gran variedad se corresponde con una cantidad de diversos tipos de información con distintos atributos que son obtenidos de diferentes fuentes. El alto valor de los datos es el aspecto más importante de la informática de la salud, en relación al objetivo de mejorar los cuidados sanitarios.
Muchos de los estudios que más adelante se van a presentar no cumplen los cinco criterios referidos en relación al Big data, y las únicas condiciones de velocidad o volumen no deberían considerarse suficientes para asegurar la calidad de las bases de datos.
Las organizaciones sanitarias han generado en los últimos años cantidades ingentes de información, almacenada en RSE y que pueden ser de gran utilidad. En la actualidad se está haciendo más popular integrar y combinar diferentes fuentes de datos, incluso de diferentes características, en lo que sería la bioinformática translacional.
Niveles de datos informáticos en salud
Como se ha referido anteriormente existen varios subgrupos de información:
- Bioinformática. Se refiere fundamentalmente a bases de datos a nivel molecular, usando microniveles de información. Los datos de bioinformática como son los referidos a la expresión genética están en continuo crecimiento y son capaces de generar datos de información molecular a nivel individual.
- Neuroinformática, que utiliza datos de imágenes a nivel de tejidos, como puede ser a nivel de sistema nervioso. Es un área de investigación reciente, que se refiere fundamentalmente a la obtención de datos de resonancia magnética. A este nivel la investigación se concentra en el análisis de imágenes cerebrales, con el objetivo de conocer mejor como trabaja el cerebro y encontrar correlaciones entre la información obtenida de las imágenes con los eventos clínicos.
- Informática clínica. Utiliza datos de pacientes, bien referidos a sus condiciones fisiológicas o a sus características patológicas. Las cuestiones clínicas son las más importantes en la informática de la salud, pues tienen que ver directamente con el paciente. En el momento actual existe un retraso de casi 15 años entre la investigación clínica y la práctica clínica. Las decisiones clínicas que se toman hoy día se basan en información general que se ha utilizado previamente o está basada en la que expertos han encontrado en su trabajo en el pasado. A través de la investigación mediante informática clínica el sistema sanitario puede obtener nuevas vías que sean más seguras, realizables y eficientes.
- Informática de salud pública. Utiliza información poblacional recogida a través de sistemas estandarizados o bien a través de información obtenida de redes sociales. Los datos se pueden obtener mediante métodos tradicionales o través de las redes sociales que utilizan las poblaciones. Los datos proporcionados a nivel poblacional pueden tener un gran volumen, obtenerse a una gran velocidad y tener una gran variedad. Los datos obtenidos a través de las redes sociales pueden tener menor veracidad y por tanto tener un menor valor, pero existen técnicas para obtener información de utilidad a través de las redes sociales que pueden obtener y dar más valor.
Los datos a nivel molecular como los referidos a la expresión genética pueden ayudar a los médicos a conocer si los pacientes podrán presentar recaídas de un tumor o incluso qué subtipo de tumor pueden tener.
Los datos obtenidos a nivel de imágenes pueden facilitar la creación de un mapa de conectividad del cerebro y predecir cual será la evolución clínica de algunos pacientes con enfermedades neurológicas o neurodegenerativas.
Los datos que utiliza la información dada por los pacientes a nivel clínico ya de tiempo atrás se viene utilizando para predecir readmisiones hospitalarias o en unidades de cuidados críticos, para predecir la mortalidad al alta hospitalaria o a los 5 años, etc. La utilización de estos datos por transmisión en tiempo real (streaming) puede facilitar información de la situación de los enfermos y evaluada con las grandes bases de datos predecir cuál será su evolución. Las predicciones sobre mortalidad en UCI o readmisión tras el alta han sido ampliamente presentadas utilizando grandes bases de datos sobre diferentes índices de gravedad fisiológica. Los nuevos métodos de análisis tienen la potencialidad de mejorar el desempeño en el proceso de atención de los pacientes tratados en unidades de cuidados intensivos y cuales deben recibir un tratamiento particular dependiendo de su características. Así mismo, se han definido diferentes estudios basados en grandes datos de información de pacientes críticos que han intentado predecir la mortalidad a los 5 años.
Se han desarrollado estudios para predecir la evolución de los pacientes en tiempo real en base a datos fisiológicos obtenidos al instante y teniendo en cuenta también las características de los pacientes. Ello se ha realizado mediante sistemas de redes neuronales o de redes bayesianas definiendo los denominados árboles de decisión muy rápida (Very Fast Decision Tree). Este sistema maneja datos dinámicos y no estáticos y proporciona predicción según el estado actual y en cada momento de los pacientes. Ofrece a los médicos la habilidad de ofrecer el mejor tratamiento a los pacientes con características fisiológicas actuales basados en las situaciones previas similares de otros pacientes.
Los datos en informática de la salud se obtienen tradicionalmente de los propios profesionales o de los centros sanitarios, pero recientemente cualquier persona puede generar información sanitaria a través de distintas aplicaciones de internet. La generación de datos se puede obtener desde twitter, o cuestiones realizadas de Google, mensajería o cualquier otra información solicitada o introducida en internet por cualquier persona. Esta forma de aportar Big data, a pesar de la posibilidad de ser inadecuada, puede posibilitar nuevos avances en el ámbito de la medicina. El inconveniente por tanto sería la baja veracidad de la información. La información de brotes de enfermedades, la relativa a enfermedades infecciosas, el aporte de conocimiento de la distribución global de diversas enfermedades, y el hecho de crear una vía muy accesible para cualquier persona a la información respecto a cuestiones médicas es una parte de gran importancia a este respecto.
Existen diversas plataformas independientes de redes sociales que con diversos algoritmos recogen la información aportada por pacientes en foros o blogs, que la analizan o depuran para proporcionar información. Son las llamadas plataformas con programas informáticos de salud inteligente. Otras plataformas se basan en un nuevo sistema que utiliza foros sociales de salud para ayudar a los pacientes en condiciones en las que otros habían aportado información en base a situaciones similares.
Utilización de consultas de búsquedas para trazar epidemias
Las consultas de búsqueda a través generalmente de dos sistemas de plataformas como Google o Baidu pueden predecir en tiempo real la ocurrencia y el movimiento de epidemias en una población dada. Por ejemplo en los brotes de influenza el CDC ofrece información generalmente con una o dos semanas de retraso en relación a los brotes epidérmicos, mientras que basados en las cuestiones planteadas en estas plataformas la información y la investigación puede ser en tiempo real. Ello puede ayudar a los médicos y a los centros hospitalarios para saber cuando y donde se está produciendo un brote epidémico pudiendo actuar con mayor celeridad e incluso establecer medidas para reducir la extensión de la enfermedad.
Utilización de posts en Twitter para seguir un brote epidémico
Una ventaja de Twitter sobre el sistema anterior de consultas en plataformas como Google es que los posts se acompañan de un contexto. Ya hay estudios que han empleado esta red social para investigar y analizar niveles de cuadros de influenza con una predicción semanal y con niveles a distintas regiones. Estos estudios requieren una definición de qué términos o palabras clave deben introducirse en los posts para ser tenidos en cuenta, como por ejemplo H1N1, catarro, gripe, etc. Se han creado incluso sistemas de análisis continuo de las tendencias de la gripe, a través de información de las redes sociales que monitorizan esta enfermedad con el objetivo de detectar los periodos epidémicos.
Bioinformática translacional
Es probablemente el futuro de la informática de la salud. Es un sistema interdisciplinario que trabaja con un gran volumen de datos biomédicos y genómicos, en donde las áreas actuales de investigación incluyen el desarrollo de nuevas técnicas que integren datos biológicos y clínicos. La bioinformática translacional desarrolla herramientas que aúnan la información a nivel molecular con la clínica, con la que se pueda de forma eficiente y segura analizar datos conjuntamente para mejorar los resultados en salud.
Hasta ahora el Big data en el sector sanitario se ha venido entendiendo solamente como un subproducto de la actividad sanitaria (pasivo), más que como un activo que sirva para mejorar su calidad y eficiencia. Otras industrias sin embargo, se han revolucionado pasando del rechazo a la utilización sistemática de las bases de datos. Los avances en los sistemas computacionales de análisis de información han sido el mayor catalizador de esta evolución. Estas técnicas analíticas contrastan con los métodos analíticos tradicionales, derivados de las ciencias físicas y sociales, que no son de utilidad para los análisis de datos no estructurados, como los derivados de documentos de texto, imposibles de conjugar en tablas relacionales. En general, a nivel de entornos de negocios el 80% de los datos están en formatos no estructurados. Y por otro lado, y también en contraste a la mayoría de las industrias de servicios al consumidor, la práctica médica ha adoptado para su desarrollo una generación de evidencias, basada en análisis experimentales (ensayos clínicos) o cuasi-experimentales, para aportar información a pacientes y profesionales [2].
El entorno sanitario no ha desarrollado hasta ahora la utilización de la gran cantidad de datos contenidos en los RSE. Sin embargo, existen cuatro vías a través de las cuales la utilización de los Big data contenidos en ellos pueden hacer avanzar el sector en sus misiones de calidad y eficiencia:
- Su análisis, genera conocimiento a una bajo coste, observando lo que ocurre en el “mundo real”.
- Ayuda a una sencilla diseminación del conocimiento. Análisis de grandes bases de datos, que se pueden compartir a través de la red.
- Sirve para trasladar iniciativas de medicina personalizada a la práctica clínica, integrando sistemas biológicos (genómica) con los RSE.
- Trasladar la información de forma rápida y directa a los pacientes, por un lado asociando datos médicos a otros datos personales (hábitos, situación económica, educación, tipo de trabajo), y facilitando su acceso a dicha información.
La utilización del Big data en este sector tiene el potencial de transformar la práctica médica utilizando la información generada cada día para mejorar la calidad y la eficiencia del sistema.
3. Elementos para el análisis del Big data
Con el volumen creciente de información obtenida a través de los sistemas de monitorización de pacientes o de los RSE, los profesionales se han visto abocados a utilizar elementos analíticos sofisticados para la toma de decisiones a través de dicha diversidad de datos. A nivel médico se están desarrollando tecnologías a nivel de sensores fisiológicos, sistemas computacionales en la nube, internet de las cosas y sistemas analíticos de grandes bases de datos, como tecnologías emergentes que se están haciendo posible gracias al importante progreso en aspectos como la velocidad de comunicación en las redes, las capacidades informáticas y las de almacenamiento de datos, que pueden contribuir hacia la mejora de la eficiencia y efectividad de los servicios sanitarios, en el denominado Smart Health o Salud Inteligente [12]. El Big data implica la aplicación de sistemas analíticos estadísticos avanzados, como los llamados aprendizaje automático, redes bayesianas, analítica visual, inteligencia artificial o computación cognitiva, a fuentes de datos, que generalmente exceden el tamaño y la complejidad de las tradicionales bases usadas en análisis de salud. Estos nuevos y futuros sistemas de análisis del Big data se van a incorporar en la práctica diaria de los clínicos, con ya su impacto rutinario en las experiencias diarias de millones de usuarios de Google, Amazon, y otras compañías tecnológicas.
Aunque el término Big data es relativamente reciente muchas de las técnicas analíticas referidas se han desarrollado hace décadas en el campo de la informática biomédica. La medicina cardiovascular y la medicina crítica han sido líderes en el uso clínico de diversos modelos empleando las mismas. Entre ellos podríamos referir los sistemas de valoración de riesgo cardiaco preoperatorio, los sistemas de puntuación TIMI de pronóstico en el síndrome coronario agudo, la puntuación CHADS para la predicción del ictus en la fibrilación auricular, las puntuaciones APACHE o SAPS, etc. Sin embargo, estos sistemas se han desarrollado basados en un pequeño número de variables preseleccionadas como predictoras. Contrariamente los sistemas analíticos del Big data pueden utilizar miles de variables con múltiples permutaciones, produciendo modelos predictivos dinámicos que pueden informar de forma continua a través de nueva información, y de forma totalmente diferente a los modelos estáticos generados por sistemas estándar a través de métodos de regresión multivariante.
Las ventajas del análisis de grandes bases de datos se basan fundamentalmente en dos premisas:
1. No es posible presentar de forma preespecífica todas las posibles vías causales y de asociación en un entorno de miles de variables.
2. Para maximizar la utilidad operacional los modelos de predicción clínica deben adaptarse a los cambios en los datos a través del espacio y del tiempo. Por ejemplo los sistemas CHADS, APACHE, TIMI o SAPS 3, aportan la misma predicción de riesgo en base a sus variables y sin tener en cuenta por ejemplo la situación económica de los pacientes, el lugar de residencia, etc. Por contra, el análisis del Big data puede ajustar predictores en variables distintas y diferentes según el momento y el lugar en el que los datos son generados, obteniendo valores de predicción más seguros. Son sistemas de predicción dinámicos y no estáticos.
Lógicamente los RSE pueden presentar deficiencias de calidad, lo cual es un desafío para poder obtener a través de ellos predicciones precisas. Otro aspecto importante es la necesidad de la reproducibilidad de los resultados obtenidos por distintos grupos y que a través de la utilización de complejos algoritmos computacionales faciliten el análisis de los datos. Es por tanto necesario asegurar procesos científicos adecuadamente contrastados y será necesario desarrollar nuevos métodos de evaluación de los sistemas analíticos del Big data. Así mismo, será necesario comparar los sistemas de predicción del Big data con los sistemas previamente desarrollados.
Se requiere por tanto rigurosos sistemas científicos para testar los modelos analíticos y no dejarnos cegar por el entusiasmo de su gran potencial. El análisis del Big data es una herramienta que requiere, como en otra intervención médica una integración clínica, para mejorar la calidad de las actividades y que tenga un impacto positivo en la salud y en los cuidados sanitarios.
Aunque escasos, ya se han realizado estudios al respecto, como el “Telemonitoring to Improve Heart Failure Outcomes” que utilizando datos fisiológicos de los pacientes, compara métodos analíticos de “aprendizaje automático” con regresión logística, para la predicción de reingresos de pacientes con insuficiencia cardiaca, demostrando mayor grado de predicción de los primeros [13-15].
Autor: Juan B. López-Messa
Complejo Universitario Hospitalario de Palencia.
© REMI, http://medicina-intensiva.com. Julio 2017.
Autor: Juan B. López-Messa
Complejo Universitario Hospitalario de Palencia.
© REMI, http://medicina-intensiva.com. Julio 2017.
BIBLIOGRAFÍA
- Viktor Mayer-Schönberger y Kenneth Cukier. Big data, la revolución de los datos masivos. Noema, 2015.
- Murdoch TB, Detsky AS. The inevitable application of Big data to health care. JAMA 2013; 309: 1351-1352.
- José María Alvarez-Pallete, presidente de Telefónica. El Pais 19/06/2017.
- Pallarés G. Big data. Cómo usar los datos para que nadie se quede atrás. El País 18/01/2017.
- Poterack KA, Ramakrishna H. Converting data into information and knowledge: The promise and the reality of electronic medical records. Ann Card Anaesth 2015; 18: 290-292.
- Weil AR. Big Data In Health: A New Era For Research And Patient Care. Health Aff 2014; 33: 1110.
- Kesselheim AS, Avorn J. New "21st Century Cures" Legislation: Speed and Ease vs science. JAMA 2017; 317: 1481-1482.
- Sherman RE, Anderson SA, Dal Pan GJ eta l. Real-world evidence-what can it tell us? N Engl J Med 2016; 375: 2293-2297.
- Kim J. Big data, health informatics, and the future of cardiovascular medicine. J Am Coll Cardiology 2017; 69: 899-901.
- Wang L, Alexander CA. Big data in medical applications and health care. Am Med J 2015; 6: 1-8.
- Herland M, Khoshgoftaar TM, Wald R. A review of data mining using big data in health informatics. Journal of Big data 2014; 1: 2.
- Sakr S, Elgamma A. Towards a comprehensive data analytics framework for smart healthcare services. Big Data Research 2016; 4: 44-58.
- Groenevld PW, Rumsfeld JS. Can Big data fulfill his promise? Circ Cardiovasc Qual Outcomes 2016; 9: 679-682.
- Simpao AF, Ahumada LM, Rehman MA. Big data and visual analytics in anaesthesia and health care. Br J Anaesthesia 2015; 115: 350-356.
- Mortazavi BJ, Downing NS, Bucholz EM, et al. Analysis of machine learning techniques for heart failure readmissions. Circ Cardiovasc Qual Outcomes 2016; 9: 629-640.
(continúa en la segunda parte: A233)
No hay comentarios:
Publicar un comentario
Se ruega que los autores de los comentarios se identifiquen (nombre, apellidos, lugar de trabajo)