Cálculos para perder la razón: ¿qué ocurre dentro de una red neuronal?
Detrás de la magia de la IA se encuentran las redes neuronales, ¿qué son: una caja negra inentendible o una herramienta poderosa que podemos aprovechar?
En el mundo de la inteligencia artificial (IA), las redes neuronales se han convertido en protagonistas indiscutibles. Su capacidad para procesar información y generar resultados sorprendentes las ha colocado en el centro de aplicaciones como el reconocimiento facial, la traducción automática, la toma de decisiones y un sin fin de aplicaciones médicas.
Los médicos aprenderemos las causas de las enfermedades. Cuando nos encontramos con un síntoma, lo entendemos como una manifestación de un desorden que ocurre en el organismo. Buscamos la causa del síntoma y la tratamos. Si indicamos un antihipertensivo es porque creemos que tiene un mecanismo de acción que interfiere con los mecanismos fisiopatológicos que llevan a la hipertensión.
Esta forma de pensar es característica de la medicina. Por esto, cada vez que nos encontramos con una situación en la que no podemos explicar las causas, nos quedamos con la sensación de que nos falta algo. Las redes neuronales desafían este paradigma de causa efecto o explicativo. Sabemos que funcionan y podemos estudiar su lógica, pero no sabemos exactamente qué hace la red neuronal con los datos que le presentamos.
En este artículo, contaré los pros, contras y mi opinión acerca de la naturaleza black box de las redes neuronales. Analizaremos cómo su complejidad interna puede dificultar la interpretación de sus resultados, pero también cómo esta misma complejidad las convierte en herramientas flexibles y adaptables a una amplia gama de tareas.
¿Qué significa que una red neuronal sea una caja negra o una black box?
En esencia, una caja negra es un sistema del que solo conocemos sus entradas (inputs) y salidas (outputs), pero no los procesos internos que convierten las entradas en salidas. En el caso de las redes neuronales, esto implica que si bien podemos observar los datos que ingresan a la red y las predicciones que genera, no podemos comprender completamente cómo llega a esas predicciones.
Por ejemplo, podemos entrenar una red neuronal para que nos clasifique nódulos pulmonares en benignos vs. malignos. Supongamos que para esto tenemos una base de datos de pacientes con su demografía y datos radiológicos. Estos datos (inputs) los presentamos a la red neuronal y ésta nos puede clasificar el nódulo del paciente en benigno o maligno (output). Con una cantidad suficiente de datos representativos de diferentes situaciones clínicas y una red neuronal adecuadamente entrenada, la predicción será cada vez mejor.
¿Por qué las redes neuronales son cajas negras?
La complejidad de la arquitectura de una red neuronal es la principal razón por la que son difíciles de interpretar. Siguiendo con el ejemplo de más arriba, imaginemos una neurona artificial (la unidad de funcionamiento básica de una red neuronal) como una simple célula que recibe información (por ejemplo, edad del paciente, tamaño de un nódulo pulmonar, tipo de bordes del nódulo y localización del nódulo) y la procesa.
A cada dato, la red neuronal le asigna un peso o importancia y luego suma todos los valores ponderados (el peso de cada variable se inicia en un valor casi al azar y se va ajustando hasta que la clasificación sea la mejor posible). Este resultado pasa por una función de activación que decide si la información es relevante para continuar en la red o no (ver la figura hipotética de abajo).
Si bien el funcionamiento de una neurona artificial es sencillo (no son más que multiplicaciones y sumas), una red neuronal completa está formada por decenas o cientos de neuronas interconectadas. La complejidad reside en que el resultado de una operación se convierte en la entrada de la siguiente neurona. Tras solo unas pocas operaciones, se vuelve prácticamente imposible rastrear la influencia de cada variable inicial en el resultado final.
Las conexiones se vuelven tan intrincadas que el ojo humano no puede descifrar cuánto ha ponderado la red neuronal cada una de las variables introducidas. Por ejemplo, veamos cómo queda la neurona única de más arriba cuando introducimos dos capas de neuronas con tres neuronas en cada capa.
La variable inicial edad que la primera neurona ponderó en un 0.006, se convirtió en un valor que pasado por la función de activación pasó a tres neuronas diferentes donde cada una lo ponderará con un valor nuevo y brindará un nuevo resultado para pasar a la neurona final. Al cabo de sólo dos capas es imposible seguir el rastro de cuánto pesa la variable edad en el resultado final. Imaginemos cuando aumentamos el número de capas y de neuronas en cada capa. ¿Cómo podríamos saber qué porcentaje de edad o de tamaño del nódulo hay en el resultado? Resultaría prácticamente imposible.
Esta complejidad, aunque dificulta la interpretación, es lo que permite a las redes neuronales realizar tareas complejas como el reconocimiento facial, el diagnóstico médico o la traducción automática, todas tareas que requieren de la implementación de funciones no lineales. Sin embargo, la falta de interpretabilidad también plantea dudas, como la dificultad para comprender cómo la red llegó a una determinada decisión o para identificar posibles sesgos en el sistema (por ejemplo, ¿pesará la edad demasiado en el resultado final?).
¿Cuáles son las consecuencias de que las redes neuronales sean cajas negras?
La falta de transparencia en las redes neuronales puede generar algunos cuestionamientos cuando pensamos desde el paradigma médico.
Falta de confianza: Si no entendemos cómo funciona una red neuronal, es difícil confiar en sus resultados. Esto puede ser especialmente problemático en aplicaciones de alto riesgo, como la toma de decisiones médicas.
Sesgos ocultos: Las redes neuronales pueden aprender y amplificar sesgos presentes en los datos con los que se entrenan. Si no podemos identificar y corregir estos sesgos, las redes neuronales pueden perpetuar estos sesgos y magnificarlos. Una forma de evitarlo es utilizando datos no sesgados (lo que a su vez es muy difícil).
Dificultad para la depuración: Cuando una red neuronal toma una decisión incorrecta, puede ser difícil determinar la causa del error. Esto dificulta el ajuste y mejora de las redes neuronales. Las redes neuronales se ajustan por prueba y error. Se modifican los parámetros (por ejemplo el número de neuronas artificiales que contiene) y se ve si la performance mejora o no. Así sucesivamente hasta encontrar la mejor combinación de parámetros (hay herramientas que hacen todo esto de manera automática, pero la esencia no deja ser prueba y error).
Si bien la naturaleza de caja negra de las redes neuronales genera interrogantes, también ofrece ventajas que la convierten en una herramienta revolucionaria. Que una red neuronal opere como una caja negra nos permite enfocarnos en lo que importa: la predicción. Las redes neuronales no necesitan ser transparentes para ser útiles. Su objetivo principal es realizar predicciones precisas y no que nosotros las entendamos. En muchos casos, la forma en que llegan a esas predicciones no es tan importante como el resultado final. Si una red neuronal te da el diagnóstico médico correcto, ¿realmente importa cómo lo hizo?
Que una red neuronal opere como una caja negra nos permite enfocarnos en lo que importa: la predicción. Las redes neuronales no necesitan ser transparentes para ser útiles.
Las ventajas de ser una caja negra
Las redes neuronales están diseñadas para aprender y adaptarse con el tiempo. A medida que se exponen a nuevos datos, pueden mejorar su rendimiento sin necesidad de intervención humana. Esta capacidad de aprendizaje continuo puede verse obstaculizada si se requiere una comprensión constante de los procesos internos de la red.
Otra ventaja es que la naturaleza de la caja negra permite obtener soluciones creativas e innovadoras. Al no estar limitadas por reglas o restricciones explícitas, las redes neuronales pueden explorar un espacio de posibilidades más amplio y llegar a resultados inesperados pero efectivos. Por ejemplo, pensemos que entrenamos la red neuronal del ejemplo de más arriba. ¿Qué es más beneficioso, incorporar las variables que pensamos que influyen o dejar que la red neuronal pondere todas las variables que quiera en la proporción que sea más óptima desde la perspectiva matemática?
En mi opinión, la segunda. Cada vez que intervenimos en seleccionar datos, estamos introduciendo sesgos. Es por esto que cuanto más cruda y variada la información que podamos presentar, menos sesgos introduciremos a los modelos.
Entonces, ¿debemos olvidarnos de tratar de entender cómo funciona una red neuronal?
No necesariamente. Si bien es cierto que la complejidad de las redes neuronales, especialmente las de gran tamaño, dificulta su comprensión total, renunciar a entender sus fundamentos sería un error.
Existen dos niveles de comprensión:
1. Comprensión del mecanismo específico:
Es poco probable que podamos comprender a la perfección cómo una red neuronal específica toma decisiones, ya que involucra millones de conexiones y operaciones matemáticas. Afortunadamente, esto no es lo más importante.
2. Comprensión de los fundamentos:
Sin embargo, es fundamental entender los principios básicos de las redes neuronales y cómo funcionan. Esto nos permite:
Elegir el algoritmo adecuado: Existen diferentes tipos de redes neuronales (convolucionales, LSTM, RNN, GAN, etc.) y otros algoritmos de machine learning. Comprender las fortalezas y debilidades de cada uno nos ayuda a seleccionar la herramienta adecuada para cada problema.
Interpretar los resultados: Si bien no podemos descifrar cada paso de la red, comprender los principios generales nos ayuda a interpretar mejor sus resultados y evaluar su confiabilidad.
Evitar el "one-fits-all": No todas las redes neuronales son adecuadas para todas las tareas. Comprender los fundamentos nos permite evitar caer en la tentación de usar una red neuronal compleja para problemas que podrían solucionarse con algoritmos más simples o querer usar una red neuronal con una base de datos que no contiene la suficiente cantidad de datos de entrenamiento.
Las redes neuronales son herramientas matemáticas revolucionarias. Sin embargo, se escucha con frecuencia que por funcionar como cajas negras, sus resultados no son confiables. En lo personal, agradezco no tener que entender la complejidad de lo que ocurre en la profundidad de una red neuronal. Tal vez esté en contra del razonamiento médico, pero en este caso, si el resultado es correcto me alcanza y me sobra.



