Hoy en día en Refinancia tenemos algoritmos capaces de procesar millones de datos para decirnos qué cliente está más abierto a negociar con nosotros o cuál cae en la categoría de cliente olvidadizo a quien debemos recordarle su pago. Estos modelos se presentan así como herramientas totalmente objetivas que nos alejan de sesgos cognitivos a la hora de la toma de decisiones. Sin embargo, un análisis más profundo de esta situación nos hace ver que no existe cosa tal como un modelo totalmente objetivo.
Esto es algo que Cassie Kozyrkov, Chief Decision Scientist en Google, nos recuerda en su último post sobre los errores que todo científico de datos ha hecho al menos una vez 1 , refiriéndose a la tendencia que tenemos los humanos, y específicamente los científicos de datos, a pensar con el deseo sobre los resultados de los modelos que creamos: “No asumas que los resultados significan algo sobre lo que el sistema está realmente detectando. No tenemos evidencia que este (el modelo) ha aprendido – o peor, que este entiende”. Su reflexión recae sobre la necesidad de ser absolutamente consciente de la data que se usa para entrenar y testear el modelo, y entender que cualquier sesgo, ruido o mínima diferencia que pueda existir entre estos conjuntos de datos, ensuciará la solución derivada.
Una reflexión parecida está detrás de lo que se conoce como la Crítica de Lucas 2 a los modelos de política macroeconómica, donde se cuestionaba la habilidad de dichos modelos econométricos (o en general cualquier modelo que use datos históricos para estimar datos futuros) de proveer información valiosa cuando se cambia la política ya que la estructura de la data (o de la economía en general) cambia cuando se modifica la política subyacente. En últimas, si los datos con los que se entrenó el modelo nos dicen qué va a pasar con un cliente cuando se le ofrece un descuento del 50%, no se puede esperar que hacia el futuro el cliente responda de la misma manera si no se le ofrece descuento y dicho modelo no estará en capacidad de estimar esta respuesta.
Mientras que el sesgo que señala Kozyrov, en un modelo de identificación de imágenes, surge de los fondos de las imágenes que en últimas son lo que termina siendo identificado y Lucas, por otro lado, muestra como un modelo generalista pierde validez ante un cambio de política, otros sesgos recurrentes pueden surgir de elementos dentro del proceso generador de datos, o selección de la población que se está investigando. Dentro de esta categoría caen los reconocidos sesgos de supervivencia y de no-respuesta. El primero se evidencia cuando el modelo se entrena con datos que “sobreviven” un proceso de selección y luego se intenta aplicar a toda la población, mientras que el segundo, muy conocido por las firmas encuestadoras, surge de tasas diferenciadas de segmentos específicos de la población a responder la encuesta. Por último, no podemos desconocer la polémica que ha surgido últimamente al comprobarse que modelos de Inteligencia artificial usados para la selección de personal terminaban perpetuando la falta de diversidad incluida en sus bases de datos de entrenamiento 3.
En definitiva, es tarea nuestra como área de Analytics en Refinancia, siendo Científicos de datos y Analista de datos, entender a profundidad todo el proceso de generación los datos: cómo y cuándo se miden, las políticas que definen los incentivos de consumidor, las reglas de negocio que definen dichas métricas, por nombrar algunos. Es a través del análisis detallado y el entendimiento de los procesos de data (y de negocio), y de los sesgos detrás de estos, que le damos un contexto a lo que llamamos “herramientas totalmente objetivas” y garantizamos que nuestros modelo y
análisis puedan ser usados tranquilamente por el negocio para la toma de decisiones.
1 https://towardsdatascience.com/the-mistake-every-data-scientist-has-made-at-least-once-3479002211b4
2 Lucas, Robert E., Jr. 1976. Econometric Policy Evaluation: A Critique. Carnegie-Rochester Conferences in
Public Policy 1: 19–46. Supplemental Series to the Journal of Monetary Economics.