Credit Scoring: Automatización de la Modelización con IA

OBJETIVO

El objetivo del curso es enseñar al participante a desarrollar y gestionar modernas y potentes herramientas de credit scoring, calibrar la probabilidad de default y validar los modelos. Además, el participante conocerá herramientas de inteligencia artificial para la automatización de la modelización y validación del credit scoring.

 

Se explica el impacto del COVID-19 en los modelos de riesgo crédito y los nuevos retos en materia de modelización.

El participante aprenderá a desarrollar modelos de credit scoring, tradicionales y avanzados, en la etapa de admisión y seguimiento del crédito. Es decir, se explica la construcción del credit y behavior scoring empleando volúmenes de información enormes.

 

Respecto a la analítica de datos, se expone un módulo, sobre el tratamiento avanzado de los datos, explicando entre otros temas, el muestreo, análisis exploratorio, segmentación y detección de outliers. 

 

Se exponen las principales técnicas del machine learning, aprendizaje supervisado, no supervisado y de refuerzo, aplicados a la creación de herramientas de credit scoring.

Se exponen metodologías tradicionales como la regresión logística y otras, innovadoras, de machine learning, tales como: árboles de decisión, naive bayes, KKN, Regresión logística LASSO, random forest, redes neuronales, redes bayesianas, Support Vector Machines, gradient boosting tree, etc .

Se explica el algoritmo avanzado deep learning para desarrollar potentes modelos de credit scoring que  los bancos pueden implementar como herramientas desafiantes o herramientas útiles en el proceso de admisión.

 

Se expone el uso del text mining para tratar variables que incluyan una cantidad importante de texto y sobre todo relacionarlas con la morosidad.

Se entregan modelos de credit scoring, con distintas metodologías en diversos lenguajes de programación como lo son: R, Python, Jupyterlab, Tensorflow y SAS.

Se enseñan metodologías avanzadas para calibrar el parámetro de riesgo PD. Se aborda la calibración por ajuste a la tendencia central, la filosofía del rating  PD PIT y PD TTC, la calibración de modelos de machine learning para que produzcan probabilidades de default.

Se indican las mejores prácticas de validación tradicional y automatizada de modelos de credit scoring de las entidades financieras.

¿QUIÉNES DEBEN ASISTIR?

 

El Curso está dirigido a profesionistas de entidades financieras interesados en el desarrollar potentes modelos de credit scoring y calibrar la salida de los mismos, así como a responsables de modelos en los departamentos de riesgo crédito y ciencia de datos.

 

Para la mejor comprensión de los temas es necesario que el participante tenga conocimientos de estadística. Y es un plus si tiene conocimientos de Machine Learning.

Horarios:

  • Santiago de Chile, Sao Paulo, Buenos Aires, Santo Domingo: L a V: 18-21h

  • España, Portugal: L a V 19-22 h

 

  • Ciudad de México, Quito, Bogotá, San JoséL a V 19-22 h

Precio: 5.900 €

Nivel: Avanzado

Duración: 30 h

Material: 

Presentaciones PDF, Ejercicios Excel, R ,SAS, Python, Jupyterlab y Tensorflow

AdobeStock_193099783 (1).jpg
AdobeStock_179292498.jpeg
 

AGENDA Credit Scoring: Automatización de la Modelización con IA

Módulo 11: Ensemble Learning

 

  • Modelos de conjuntos

  • Bagging

  • Bagging trees

  • Random Forest

  • Boosting

  • Adaboost

  • Gradient Boosting Trees

  • Ventajas e inconvenientes

  • Ejercicio 26: Credit Scoring Boosting en R 

  • Ejercicio 27: Credit Scoring Bagging en R
  • Ejercicio 28: Credit Scoring Random Forest, R y Python, data 1 y 2

  • Ejercicio 29: Credit Scoring Gradient Boosting Trees

Módulo 12: Deep Learning 

  • Definición y concepto del deep learning

  • ¿Porque ahora el uso del deep learning?

  • Arquitecturas de redes neuronales

  • Función de activación

    • Sigmoidal

    • Rectified linear unit, Relu

    • Hipertangente

    • Softmax

  • Feedforward network

  • Perceptrón Multicapa

  • Uso de Tensorflow

  • Uso de Tensorboard

  • R deep Learning

  • Python deep Learning

  • Redes neuronales convolucionales

  • Uso del deep learning en la clasificación de imágenes

  • Función de costes

  • Optimización con Gradiente descendiente

  • Uso del deep learning para el credit scoring

    • ¿Cuantas capas ocultas?

    • ¿Cuantas neuronas, 100, 1000?

    • ¿Cuantas épocas y tamñao del batch size?

    • ¿Cual es la mejor función de activación?

  • Software Deep Learning: Caffe, H20, Keras, Microsoft, Matlab, etc.

  • Software de implementación: Nvidia y Cuda

  • Harware, CPU, GPU y entornos cloud

  • Ventajas e inconvenientes del deep learning

  • Feedforward neural network

  • Perceptrón Multicapa

  • Redes neuronales convolucionales

  • Uso del deep learning en la clasificación de imágenes

  • Redes neuronales recurrentes

  • Series temporales

  • Long Short Term Memory

  • Ejercicio 30: Credit Scoring usando Deep Learning feedforward neural network

  • Ejercicio 31: Credit Scoring usando Deep Learning  redes neuronales convolucionales

 

Módulo 14: Riesgo de Modelo en el Scorecard

 

  • Asignación de puntuación

  • Clasificación del Scorecard

    • Scorecard WOE

    • Scorecard Binario

    • Scorecard Continuo

  • Reescalamiento del Scorecard

    • Análisis del Factor y Offset

    • Scorecard WOE

    • Scorecard Binario

  • Técnicas de Reject Inf erence

    • Cut-Off

    • Parcelling

    • Fuzzy Augmentation

  • Técnicas Avanzadas de punto de corte 

    • Optimización del punto de corte usando curvas ROC

  • Reinforcement Learning

    • Markov decisions processes

  • Riesgo de Modelo por decisión de punto de corte

  • Riesgo de Modelo por ausencia de datos

  • Riesgo de Modelo por no actualizar o recalibrar

  • Ejercicio 32: Construcción de Tarjeta de Puntuación en Excel

  • Ejercicio 33: Estimación óptima punto de corte en Excel y riesgo de modelo por selección punto de corte

  • Ejercicio 34: Matriz de confusión para verificar Error Tipo 1 y Tipo 2 en Excel con y sin variables

  • Ejercicio 35: Riesgo de modelo en credit scoring por no recalibrar a tiempo

Módulo 15: Modelos de Credit Scoring por producto

  • Credit Scoring de Admisión

    • Score de Tarjetas de crédito

    • Score de Hipotecas

    • Score de consumo

    • Score de Automóvil

  • Behavior Score (BS)

    • Horizonte temporal

    • Información de datos de panel

    • Regresión de datos de panel

    • Regresión Cox

    • Behavior Score con variables macroeconómicas

    • Matrices de transición

    • Behavior Score con matrices de transición 

    • Transaction Score

  • BEHAVIOR SCORE EN TARJETAS DE CRÉDITO

  • Ejercicio 36: Behavior Score  Regresión Logística en SAS data 1

  • Ejercicio 37: Behavior Score Regresión Logística en Python data 2

  • Ejercicio 38: Behavior Score Support Vector Machines en python

  • Ejercicio 39: Behavior Score Random Forest en python

  • Ejercicio 40: Behavior Score Gradient Boosting Trees en python

  • Ejercicio 41: Behavior Score Deep Learning en python

Módulo 16: Validación de modelos tradicionales y de Machine Learning

  • Validación Out of Sample y Out of time

  • Verificación p-values en regresiones

  • R cuadrado, MSE, MAD

  • Diagnóstico de los residuos

  • Test de Bondad de Ajuste

    • Deviance

    • Bayesian Information Criterion (BIC)

    • Akaike Information Criterion 

  • Multicolinealidad Multivariante

  • Validación cruzada

  • Bootstrapping del error

  • Matriz de confusión caso binario

  • Matriz de confusión caso multinomial

  • Principales test de poder discriminante:

    • KS

    • Curva ROC

    • Curva Lift

    • Gini Index

    • Cumulative Accuracy Profile

    • Distancia de Kullback-Leibler

    • Pietra Index

    • 1-Ph

    • Entropía condicional

    • Valor de Información

    • Brier Score

    • Divergencia

    • Hosmer Lemeshow

  • Intervalos de confianza

  • Jackknifing con test de poder discriminante

  • Bootstrapping con test de poder discriminante

  • Estadístico Kappa

  • K-Fold Cross Validation

  • Análisis Semafórico

  • Ejercicio 42: Test de Bondad de Ajuste Regresión Logística

  • Ejercicio 43: Validación cruzada en SAS

  • Ejercicio 44: Estimación Gini, Valor de la Información, Brier Score, Curva Lift, CAP, ROC, Divergencia en SAS y Excel

  • Ejercicio 45: Bootstrapping de parámetros SAS

  • Ejercicio 46: Jackkinifng en SAS

  • Ejercicio 47: Bootstrapping de Gini/ROC en SAS

  • Ejercicio 48: Estimación Kappa

  • Ejercicio 49: K-Fold Cross Validation en R

  • Ejercicio 50: Validación semafórica out of time (horizonte 6 años) de modelos Logístico y de Machine Learning

Módulo 17: Pruebas de estabilidad

  • Índice de estabilidad en modelo

  • Índice de estabilidad en factores

  • Test Xi-cuadrada

  • Test K-S

  • Ejercicio 51: Pruebas de estabilidad de modelos y de factores

CALIBRACIÓN DE MODELOS DE PD

Módulo 18: Calibración de la Probabilidad de Default PD

  • Estimación de la PD

  • Modelos econométricos

  • Modelos de Machine Learning

  • Requerimiento de datos

  • Risk drivers y criterio del credit scoring

  • Filosofía del rating

  • Tratamiento de los Pools

  • Calibración de la PD

  • ​Definición de Default

  • Long run average for PD

  • Defaults técnicos y filtros técnicos del default

  • Requerimiento de datos

  • Cálculo de tasa de default a un año

  • Cálculo de Tasa de default a largo plazo

  • Riesgo de Modelo de la PD

    • Margen de Conservadurismo

  • Técnicas de calibración

  • Estimación Anchor Point

  • Mapping de Score a PD

  • ​Ajuste al Ciclo Económico de la PD

  • Filosofía del Rating

    • Modelos PD Trough The Cycle (PD TTC)

    • Modelos PD Point in Time PD (PD PIT )

  • Calibración Scaled PD

  • Calibración Scaled Likelihood ratio

  • Suavizamiento de las curvas de PD

  • Quasi moment matching

  • Calibración de PD de modelos de Machine y Deep Learning

  • Ejercicio 52: Calibración de la PD por ajuste a la tendencia central

  • Ejercicio 53: Calibración de PD Anchor point

  • Ejercicio 54: Calibración de PD PIT 

  • Ejercicio 55: Calibración de PD en modelos de Machine Learning

  • Ejercicio 56: Modelización del Margen de Conservadurismo PD

  • Ejercicio 57: Calibración PD TTC

VALIDACIÓN DE MODELOS DE PD

Módulo 19: Backtesting PD

 

  • Definición del Backtesting PD

  • Validación de Calibración de PD

    • Hosmer Lameshow test

    • Normal test

    • Binomial Test

    • Spiegelhalter test

    • Redelmeier Test

    • Traffic Light Approach

  • Análisis Semafórico y Cuadro de mando de la PD

  • PD Stability Test

  • Forecasting PD vs PD Real en el tiempo

  • Validación con simulación de Monte Carlo

  • ¿Cuando recalibrar o reestimar un modelo de credit scoring?

  • Re-development 

  • Re-estimation

  • Riesgo de Modelo en la PD

  • Machine Learning para validar los modelos de PD

  • Ejercicio 58: Backtesting de PD en Excel

  • Ejercicio 59: Forecasting PD y PD real en Excel

  • Ejercicio 60: Validación usando Simulación de Monte Carlo en Python

AUTOMATIZACIÓN DE LA MODELIZACIÓN

CON IA

Módulo 20: Automatización de la Modelización 

 

  • ¿ Que es la automatización de la modelización?

  • Que se automatiza

  • Automatización de los procesos de machine learning

  • Optimizadores y evaluadores

  • Componentes del Workflow de la automatización de la modelización

    • Resumen

    • Procesado

    • Feature engineering

    • Generación del modelo

    • Evaluación

  • Optimización de hiperparámetros

  • Reconstrucción o recalibración del credit scoring

  • Modelización del Credit Scoring

    • Principales hitos

    • Evaluación y optimización

    • Posibles Issues

  • Modelización de la calibración de la PD 

    • Evaluación y optimización

    • Backtesting

    • Poder Discriminante

    • Pruebas de Estabilidad

  • Evaluación global de la automatización de la modelización

  • Implementación de la automatización de la modelización en banca

  • Requerimientos tecnológicos

  • Herramientas disponibles

  • Beneficios y posible estimación del ROI

  • Principales Issues

  • Riesgo de Modelo

  • Ejercicio 61: Automatización de la modelización y optimización y validación de  hiperparametría del credit scoring

  • Ejercicio 62: Automatización de la modelización y validación de una herramienta de credit scoring

Módulo 0: Impacto del COVID-19 en el Riesgo Crédito

  • Pandemia Covid-19 en el mundo

  • Casos de contagio, muertes y recuperaciones

  • Estrategias de mitigación de la propagación en el mundo

  • Análisis matemático de las curvas de contagio por países

    • Modelo SIR: S (población susceptible), I (población infectada) y R (población recuperada)

  • Estrategias de la OMS para paliar emergencia sanitaria

  • Gastos de salud respecto al PIB esperados

  • Impacto financiero y desplome de las  bolsas

  • Impacto de la caída del precio del petróleo

  • Impacto en la economía mundial

    • Posible Recesión Mundial

    • Expectativas del PIB OCDE

    • Incremento de tasa de paro por países 

    • Planes de emergencia

    • Acuerdos del Video-Call G-20

    • Sectores económicos más desfavorecidos

  • Impacto en la banca

    • Impacto en el capital:  Buffers de capital

    • Impacto en las provisiones del IFRS 9

    • Crecimiento de la morosidad

  • Impacto en el Riesgo de Crédito

    • Impacto en el ciclo de crédito

    • Impacto en la admisión y seguimiento

    • Impacto en la morosidad

    • Impacto de las moratorias en el riesgo crédito

    • Impacto sectorial del riesgo de crédito

    • Impacto en el credit scoring

  • Impacto en el riesgo de liquidez

  • Análisis Coste-Beneficio de las cuarentenas 

    • Gastos y ahorros en materia de salud 

 

Módulo 1: Big Data y Disrupción digital

 

  • Definición de Big Data

  • Big Data en las entidades financieras y fintech

  • Big data en las Bigtech

  • Tipología de datos

    • Estructurados

    • Semiestructurados

    • Datos No Estructurados

  • Big data: Volumen, Velocidad, Variedad, Veracidad y Valor

  • Tamaño de los Big Data

  • Fuentes de grandes volúmenes de datos

    • Data transaccional

    • Data de redes sociales

    • Data de buró de crédito

    • Origen de las fuentes de datos

    • Los datos de la web

    • Datos de Texto

    • Datos de sensores

    • Datos de RFID y NFC

    • Datos de operadores de telecos

    • Datos de redes inteligentes

  • Digitalización bancaria​

  • Inclusión financiera

  • Regulación en Europa, EEUU y Latinoamérica

 

Módulo 2: Credit Scoring 

 

  • Credit Scoring para Banca

  • Credit Scoring con big data

  • Diseño y Construcción de Modelos de Credit Scoring

  • Ventajas e Inconvenientes

  • Modelos para afrontar nuevas crisis financierias

  • Machine Learning para desarrollar y validar credit scoring

  • Importancia del Bureau Score

  • Gestión de los Credit Scorecards

  • Estimación de la Probabilidad de Default PD 

Módulo 3: Machine Learning

 

  • Definición del Machine Learning 

  • Metodología del Machine Learning

    • Almacenamiento de la Data

    • Abstracción

    • Generalización

    • Evaluación

  • Aprendizaje Supervisado

  • Aprendizaje No Supervisado

  • Aprendizaje por Refuerzo

  • Deep Learning

  • Tipología de algoritmos de Machine Learning

  • Pasos para implementar un algoritmo

    • Recogida de información

    • Análisis Exploratorio

    • Entrenamiento del modelo

    • Evaluación del Modelo

    • Mejoras al modelo

    • Machine Learning en riesgo crédito de consumo

  • Machine Learning en modelos de credit scoring

  • Análisis de principales herramientas: R, Python, Microsoft Azure, SAS  Enterprise Miner, SAS Visual Analytics, Knime, IBM SPSS Modelller, Spark,,etc.

 

MODELIZACIÓN

Módulo 4: Análisis Exploratorio 

  • Tipología de datos 

  • Datos transaccionales

  • Unstructured data embebida en documentos de texto

  • Social Media Data

  • Fuentes de datos

  • Revisión del dato

  • Definición del Target

  • Horizonte temporal de la variable objetivo

  • Muestreo

    • Muestreo Aleatorio

    • Muestreo Estratificado

    • Muestreo Rebalanceado

  • Análisis Exploratorio:

    • Histogramas

    • Q-Q Plot

    • Análisis de momentos

    • Box Plot

  • Tratamiento de los valores Missing

    • Modelo Multivariante de Imputación

  • Técnicas avanzadas de detección de Outliers y tratamiento

    • Técnica univariante: winsorized y trimming

    • Técnica Multivariante: Distancia de Mahalanobis

Módulo 5: Análisis Univariante

  • Estandarización de los Datos

  • Categorización de variables

    • Equal Interval Binning

    • Equal Frecuency Binning

    • Prueba Ji-Cuadrada

  • Binary Coding

  • WOE Coding

    • Definición WOE

    • Análisis Univariante con variable Target

    • Selección de variables

    • Tratamiento de Variables continuas

    • Tratamiento de Variables Categóricas

    • Gini

    • Information Value

    • Optimización de variables continuas

    • Optimización de variables categóricas

  • ​Ejercicio 1: Análisis Exploratorio en R

  • Ejercicio 2: Detección y tratamiento de Outliers Avanzado

  • Ejercicio 3: Muestreo estratificado y Aleatorio en R

  • Ejercicio 4: Modelo multivariante de impuación

  • Ejercicio 5: Análisis univariante en percentiles en R

  • Ejercicio 6: Análisis univariante óptimo variable continua en Excel

  • Ejercicio 7: Estimación del KS, Gini e IV de cada variable en Excel

  • Ejercicio 8: Análisis Word Cloud de variables en R

Módulo 6: Modelo predictivo univariante 

usando Text Mining

  • Definición Text Mining

  • Modelo para variables con contenido descriptivo

  • Unstructured Data

  • Análisis Exploratorio

  • Treemaps

  • Modelización predictiva en el Text Mining

    • K-Nearest Neighbors

  • Text Mining Predictivo

    • Keyword Search

    • Algortimos de clasificación

    • Algoritmos Clustering

  • Sentimiento en lingüística y Psicología

    • Subjetividad

    • Facticidad

  • Lingüística Computacional

    • Lexicón y Corpora

    • Enfoque basado en reglas

    • Enfoque Machine Learning 

  • Análisis de Sentimientos en Twitter

    • Análisis  y Score de polaridad

    • Support Vector Machine

  • Ejercicio 9: Análisis Word Cloud de variables en R

  • Ejercicio 10: Text Mining aplicado a la data no estructurada 

  • Ejercicio 11: Score de polaridad 

  • Ejercicio 12: Análisis de Sentimientos usando SVM para detectar defaults 

Aprendizaje No Supervisado

Módulo 7: Modelos no supervisados

  • Clusters Jerárquicos

  • K-Means

  • Algoritmo estándar

  • Distancia Euclidiana

  • Análisis de Componentes principales (PCA)

  • Visualización avanzada de PCA

  • Eigenvectores e Eigenvalores
  • Ejercicio 14: Componentes principales en R y SAS

  • Ejercicio 15: Segmentación de la data con K-Means R

Aprendizaje Supervisado

Módulo 8: Regresión Logística y Regresión LASSO

 

  • Modelos Econométricos 

    • Regresión Logit

    • Regresión probit
    • Regresión Piecewise

    • Modelos de supervivencia

  • Modelos de Machine Learning

    • Regresión Lasso

    • Regresión Ridge

  • Riesgo de Modelo en la regresión logística

  • Ejercicio 16: Credit Scoring Regresión Logística en SAS y R

  • Ejercicio 17: Credit Scoring Regresión Logística Lasso en R

  • Ejercicio 18: Riesgo de Modelo usando Intervalos de confianza de coeficientes de regresión logística 

Módulo 7: Árboles, KNN y Naive Bayes

 

  • Árboles de Decisión

    • Modelización

    • Ventajas e inconvenientes

    • Procesos de Recursión y Particionamiento

    • Recursive partitioning tree

    • Pruning Decision tree

    • Conditional inference tree

    • Visualización de árboles

    • Medición de la predicción de árboles de decisión

    • Modelo CHAID

    • Modelo C5.0

  • K-Nearest Neighbors KNN

    • Modelización

    • Ventajas e inconvenientes

    • Distancia Euclidiana

    • Distancia Manhattan

    • Selección del valor K

  • Modelo Probabilístico: Naive  Bayes

    • Bayes Ingenuo

    • Teorema de Bayes

    • Estimador de Laplace

    • Clasificación con Naive Bayes

    • Ventajas e inconvenientes

  • Ejercicio 19: Credit Scoring Árbol de decisión en SAS y R

  • Ejercicio 20: Credit Scoring KNN en R y SAS

  • Ejercicio 21: Credit Scoring Naive Bayes en R

Módulo 9: Support Vector Machine SVM

  • SVM con variables dummy

  • SVM

  • Hiperplano óptimo

  • Support Vectors

  • Añadir costes

  • Ventajas e Inconvenientes

  • Visualiización del SVM

  • Tuning SVM

  • Truco de Kernel

  • Ejercicio 22: Credit Scoring Support Vector Machine en R data 1

  • Ejercicio 23: Credit Scoring upport Vector Machine en Python data 2

Módulo 10: Redes Neuronales (Neural Networks NN)

  • Neurona artifical

  • Entrenamiento de Perceptron

  • Perceptrón 

  • Algoritmo de backpropagation

  • Procedimientos de entrenamiento

  • Tuning NN 

  • Visualización de NN

  • Ventajas e inconvenientes

  • Ejercicio 24: Credit Scoring Redes Neuronales: perceptron multicapas en R data 1

  • Ejercicio 25: Credit Scoring Redes Neuronales en Python data 2