La importancia de la ética para la Inteligencia Artificial: el problema de los sesgos

La Inteligencia Artificial se encuentra en un momento de gran crecimiento, aumentando previsiblemente un 16,4% en este año 2021 y no es de extrañar, dada su utilidad y sus múltiples aplicaciones en diferentes mercados.

11 Nov 2021

Sin embargo, este desarrollo también plantea grandes retos y uno de los más importantes y que plantea mayores complejidades es el de la ética. Resulta difícil para la Inteligencia Artificial y los modelos de Machine Learning eliminar los sesgos en sus modelos y esto no supone un problema tan solo a nivel práctico o empresarial, sino que en ocasiones pueden crear un problema ético por sus posibles implicaciones en la vida de las personas. Por tanto, ¿cómo combatir estos sesgos? ¿Cómo incorporar la ética en el desarrollo de modelos de Inteligencia Artificial? Estas son las preguntas que trataremos de resolver en este artículo.

Desarrollando un proyecto de Machine Learning

Habitualmente, los proyectos de Machine Learning siguen una serie de pasos comunes: comprensión del negocio, comprensión de los datos, preparación de los datos, modelado, evaluación, despliegue, etc. Sin embargo, es un error pensar que se trata de un proceso cerrado en el que es posible operar de manera mecánica o agnóstica, ya que cada decisión que se toma en este proceso puede afectar gravemente al resultado. Desde los datos seleccionados hasta el algoritmo elegido o los preprocesados que se realicen, todo ello puede influir de manera decisiva en los resultados y en el modelo de Machine Learning configurado.

Los datos, clave del buen aprendizaje en los modelos

Es importante recordar que los modelos aprenden exactamente lo que se les pide y a partir de los datos que se les facilita. Por tanto, son las personas las que seleccionan tanto la variable objetivo como su formato, así como los datos proporcionados para el entrenamiento que, aunque tratan de ser una aproximación al mundo real, pueden perder información importante.

Así, es muy importante conseguir unos datos que sean representativos de la realidad y un planteamiento correcto, pues si no se presta la atención adecuada podrían introducirse sesgos que penalicen gravemente tanto el rendimiento del modelo como la vida de las personas (motivo por el que nos planteamos la importancia de la ética).

El problema de los sesgos en los datos o en el desarrollo del algoritmo

A la hora de desarrollar modelos de Inteligencia Artificial y Machine Learning encontramos dos limitaciones principales: los sesgos en los datos y los sesgos en el planteamiento.

Sesgos en los datos del modelo de IA

Los datos representan por lo general hechos y decisiones pasadas, por lo que si dichas decisiones se tomaron dentro de una sociedad con sesgos, los datos contendrán esos mismos sesgos, reforzándolos al utilizarlos para la creación de modelos. Dentro de este tipo de sesgos debidos a los datos podemos encontrar tres tipos o motivos principales:

Etiquetas selectivas. Este concepto se refiere al hecho de que podemos observar qué sucede al tomar una decisión, pero no sabemos qué habría pasado de no haberla tomado. Por ejemplo, y refiriéndonos a un caso de la vida real para entenderlo, los jueces en Estados Unidos utilizan el sistema COMPAS que trata de determinar la probabilidad de reincidencia de los delincuentes. Sin embargo, solo se observan los delitos cometidos por los acusados liberados, pero no podemos observar los delitos que habrían podido cometer de ser liberados, por lo que predecir la criminalidad de los que continúan en la cárcel resulta problemático.
Sesgo de muestreo. Los datos suelen ser una muestra de la totalidad de la información, por lo que pueden no ser representativos de la realidad, penalizando en algunos casos a algunos conjuntos ya sea por exceso o por defecto de representación.
Variables protegidas o Proxy. En este caso, un conjunto de datos puede inducir el sesgo de un algoritmo si se entrena con variables protegidas (como el sexo o la raza) o con variables proxy (es decir, variables altamente relacionadas con la variable protegida).

Resulta difícil para la Inteligencia Artificial y los modelos de Machine Learning eliminar los sesgos en sus modelos y esto no supone un problema tan solo a nivel práctico o empresarial, sino que en ocasiones pueden crear un problema ético por sus posibles implicaciones en la vida de las personas.

Sesgos en el desarrollo del algoritmo

A la hora de desarrollar un algoritmo es necesario tomar numerosas decisiones que pueden generar resultados muy diferentes, pues cada decisión contiene una suposición implícita. Por ello, pueden aparecer cuatro tipos de sesgos durante este proceso:

Selección de la variable objetivo. Numerosos estudios demuestran como el hecho de elegir y especificar la variable objetivo se basa en supuestos normativos. Además, y volviendo al ejemplo del punto anterior, sistemas como COMPAS evalúan los casos en una única dimensión (en este caso la reincidencia), pero los objetivos pueden ser múltiples (prevención de nuevos delitos, rehabilitación, castigo adecuado, costes sociales, etc.), por lo que podrían existir otras variables a considerar.
Un mal planteamiento. En Machine Learning se busca que el modelo generalice y extraiga de forma automática los patrones que hay en los datos para poder hacer predicciones posteriormente. Sin embargo, si no se escogen los datos correctamente y no se crean conjuntos de train, test y validación adecuados, podríamos forzar al modelo a que prediga en base a parámetros erróneos, obteniendo un modelo que no ha aprendido nada, pero que realiza predicciones con una alta confianza.
Ingeniería de variables inadecuada. En ocasiones pueden producirse errores en la selección, codificación, tratamiento de missing values, etc.
Efectos de retroalimentación. Al implementar nuevos procesos de decisión automatizados se genera nueva información que debe de introducirse en el sistema para ser tenida en cuenta y minimizar así los sesgos.

¿Cómo crear algoritmos éticos?

En vista de todo lo anterior, entendemos que existen numerosas variables que pueden llevar a la introducción de sesgos, creando modelos de Inteligencia Artificial con problemas tanto a nivel práctico como ético. Pero entonces, ¿es posible crear algoritmos “justos” y “éticos”?

Para hacerlo será necesaria la equidad, lo que en términos legales se entiende como el punto en que las personas no son discriminadas por su pertenencia a un grupo o clase protegida (es decir, los grupos recogidos en el Convenio Europeo de Derechos Humanos -sexo, raza, color, idioma, religión, opinión política o de otro tipo, origen nacional o social, asociación con una minoría nacional, propiedad, nacimiento u otra condición-).

Llevado a la práctica, existen mecanismos que ayudan en la búsqueda de justicia a nivel estadístico, para llegar a una realidad en la que la automatización, los algoritmos y la Inteligencia Artificial no contribuyan a la discriminación de las personas, sino que tengan muy en cuenta los principios éticos y nos lleven hacia una sociedad mejor y más justa.