Credit Scoring AI: Machine Learning, Deep Learning y calibración de la PD

OBJETIVO DEL CURSO

Curso intensivo para desarrollar y gestionar modernas y potentes herramientas de credit scoring, calibrar la probabilidad de default y validar los modelos.

 

El participante aprenderá a desarrollar modelos de credit scoring, tradicionales y avanzados, en la etapa de admisión y seguimiento del crédito. Es decir, se explica la construcción del credit y behavior scoring empleando volúmenes de información enormes.

 

Respecto a la analítica de datos, se expone un módulo, sobre el tratamiento avanzado de los datos, explicando entre otros temas, el muestreo, análisis exploratorio, segmentación y detección de outliers. 

 

Se exponen las principales técnicas del machine learning, aprendizaje supervisado, no supervisado y de refuerzo, aplicados a la creación de herramientas de credit scoring.

Se exponen metodologías tradicionales como la regresión logística y otras, innovadoras, de machine learning, tales como: árboles de decisión, naive bayes, KKN, Regresión logística LASSO, random forest, redes neuronales, redes bayesianas, Support Vector Machines, gradient boosting tree, etc .

Se explica el algoritmo avanzado deep learning para desarrollar potentes modelos de credit scoring que  los bancos pueden implementar como herramientas desafiantes o herramientas útiles en el proceso de admisión. Se  exponen las redes neuronales perceptron multicapa, convolucionales y recurrentes. Se explica una metodología propia, de Fermac Risk, para controlar los modelos de deep learning y hacerles interpretables. Lo anterior, evitará las inaceptables cajas negras.

 

Se expone el uso del text mining para tratar variables que incluyan una cantidad importante de texto y sobre todo relacionarlas con la morosidad. Se exponen metodologías de Natural Language Processing NLP para la construcción del credit scoring. Además, se emplea otra área de inteligencia llamada reinforcement learning para la construcción del scorecard.

Se entregan más de 20 modelos de credit scoring, con distintas metodologías en diversos lenguajes de programación como lo son: R, Python, Jupyterlab, Tensorflow y SAS. Se entregan modelos de credit scoring de admisión, seguimiento, recobro, ingresos y abandono.

Se enseñan metodologías avanzadas para calibrar el parámetro de riesgo PD IRB. Se aborda la calibración por ajuste a la tendencia central, la filosofía del rating  PD PIT y PD TTC, la calibración de modelos de machine learning para que produzcan probabilidades de default. Además se ha incluido un modulo para desarrollar y calibrar la PD Lifetime de IFRS 9 empleando modelos de deep learning.

 

Se aborda la estimación del Margen de conservadurismo MoC requerida en Basilea IV para mitigar el riesgo de modelo en las herramientas de credit scoring.

Se indican las mejores prácticas de validación de modelos de credit scoring de las entidades financieras.

¿QUIÉNES DEBEN ASISTIR?

 

El Curso está dirigido a profesionistas de entidades financieras interesados en el desarrollar potentes modelos de credit scoring y calibrar la salida de los mismos, así como a responsables de modelos en los departamentos de riesgo crédito y ciencia de datos.

 

Para la mejor comprensión de los temas es necesario que el participante tenga conocimientos de estadística y matemáticas

Horarios:

  • Santiago de Chile, Sao Paulo, Buenos Aires, Santo Domingo: L a V: 18-21h

  • España, Portugal: L a V 19-22 h

 

  • Ciudad de México, Quito, Bogotá, San JoséL a V 19-22 h

Precio: 6.900 €

Nivel: Avanzado

Duración: 33 h

     Material: 

  • Presentaciones PDF

  • Ejercicios en Excel, R , SAS, Python, Jupyterlab y Tensorflow

AGENDA

 

Credit Scoring AI: Machine Learning, Deep Learning y calibración de la PD

 

CREDIT SCORING

 

Módulo 1: Big Data, Disrupción digital y AI

 

  • Definición de Big Data

  • Big Data en las entidades financieras y fintech

  • Big data en las Bigtech

  • Tipología de datos

    • Estructurados

    • Semiestructurados

    • Datos No Estructurados

  • Big data: Volumen, Velocidad, Variedad, Veracidad y Valor

  • Tamaño de los Big Data

  • Fuentes de grandes volúmenes de datos

    • Data transaccional

    • Data de redes sociales

    • Data de buró de crédito

    • Origen de las fuentes de datos

    • Los datos de la web

    • Datos de Texto

    • Datos de sensores

    • Datos de RFID y NFC

    • Datos de operadores de telecos

    • Datos de redes inteligentes

  • Digitalización bancaria​

  • Inclusión financiera

  • Regulación en Europa, EEUU y Latinoamérica

  • Inteligencia Artificial en la banca

  • Inteligencia Artificial en el ciclo de crédito

 

Módulo 2: Credit Scoring 

 

  • Credit Scoring para Banca

  • Credit Scoring con big data

  • Diseño y Construcción de Modelos de Credit Scoring

  • Ventajas e Inconvenientes

  • Modelos para afrontar nuevas crisis financierias

  • Machine Learning para desarrollar y validar credit scoring

  • Importancia del Bureau Score

  • Gestión de los Credit Scorecards

  • Estimación de la Probabilidad de Default PD 

Módulo 3: Machine Learning

 

  • Definición del Machine Learning 

  • Metodología del Machine Learning

    • Almacenamiento de la Data

    • Abstracción

    • Generalización

    • Evaluación

  • Aprendizaje Supervisado

  • Aprendizaje No Supervisado

  • Aprendizaje por Refuerzo

  • Deep Learning

  • Tipología de algoritmos de Machine Learning

  • Pasos para implementar un algoritmo

    • Recogida de información

    • Análisis Exploratorio

    • Entrenamiento del modelo

    • Evaluación del Modelo

    • Mejoras al modelo

    • Machine Learning en riesgo crédito de consumo

  • Machine Learning en modelos de credit scoring

  • Análisis de principales herramientas: R, Python, Microsoft Azure, SAS  Enterprise Miner, SAS Visual Analytics, Knime, IBM SPSS Modelller, Spark,,etc.

 

MODELIZACIÓN

Módulo 4: Análisis Exploratorio 

  • Tipología de datos 

  • Datos transaccionales

  • Unstructured data embebida en documentos de texto

  • Social Media Data

  • Fuentes de datos

  • Revisión del dato

  • Definición del Target

  • Horizonte temporal de la variable objetivo

  • Muestreo

    • Muestreo Aleatorio

    • Muestreo Estratificado

    • Muestreo Rebalanceado

  • Análisis Exploratorio:

    • Histogramas

    • Q-Q Plot

    • Análisis de momentos

    • Box Plot

  • Tratamiento de los valores Missing

    • Modelo Multivariante de Imputación

  • Técnicas avanzadas de detección de Outliers y tratamiento

    • Técnica univariante: winsorized y trimming

    • Técnica Multivariante: Distancia de Mahalanobis

Módulo 5: Análisis Univariante

  • Estandarización de los Datos

  • Categorización de variables

    • Equal Interval Binning

    • Equal Frecuency Binning

    • Prueba Ji-Cuadrada

  • Binary Coding

  • WOE Coding

    • Definición WOE

    • Análisis Univariante con variable Target

    • Selección de variables

    • Tratamiento de Variables continuas

    • Tratamiento de Variables Categóricas

    • Gini

    • Information Value

    • Optimización de variables continuas

    • Optimización de variables categóricas

  • ​Ejercicio 1: Análisis Exploratorio en R

  • Ejercicio 2: Detección y tratamiento de Outliers Avanzado

  • Ejercicio 3: Muestreo estratificado y Aleatorio en R

  • Ejercicio 4: Modelo multivariante de impuación

  • Ejercicio 5: Análisis univariante en percentiles en R

  • Ejercicio 6: Análisis univariante óptimo variable continua en Excel

  • Ejercicio 7: Estimación del KS, Gini e IV de cada variable en Excel

  • Ejercicio 8: Análisis Word Cloud de variables en R

Módulo 6: Modelo predictivo univariante 

usando Text Mining

  • Definición Text Mining

  • Modelo para variables con contenido descriptivo

  • Unstructured Data

  • Análisis Exploratorio

  • Treemaps

  • Modelización predictiva en el Text Mining

    • K-Nearest Neighbors

  • Text Mining Predictivo

    • Keyword Search

    • Algortimos de clasificación

    • Algoritmos Clustering

  • Sentimiento en lingüística y Psicología

    • Subjetividad

    • Facticidad

  • Lingüística Computacional

    • Lexicón y Corpora

    • Enfoque basado en reglas

    • Enfoque Machine Learning 

  • Análisis de Sentimientos en Twitter

    • Análisis  y Score de polaridad

    • Support Vector Machine

  • Ejercicio 9: Análisis Word Cloud de variables en R

  • Ejercicio 10: Text Mining aplicado a la data no estructurada 

  • Ejercicio 11: Score de polaridad 

  • Ejercicio 12: Análisis de Sentimientos usando SVM para detectar defaults 

 

MACHINE LEARNING

Aprendizaje No Supervisado

Módulo 7: Modelos no supervisados

  • Clusters Jerárquicos

  • K-Means

  • Algoritmo estándar

  • Distancia Euclidiana

  • Análisis de Componentes principales (PCA)

  • Visualización avanzada de PCA

  • Eigenvectores e Eigenvalores
  • Ejercicio 14: Componentes principales en R y SAS

  • Ejercicio 15: Segmentación de la data con K-Means R

 

Aprendizaje Supervisado

Módulo 8: Regresión Logística y Regresión LASSO

 

  • Modelos Econométricos 

    • Regresión Logit

    • Regresión probit
    • Regresión Piecewise

    • Modelos de supervivencia

  • Modelos de Machine Learning

    • Regresión Lasso

    • Regresión Ridge

  • Riesgo de Modelo en la regresión logística

  • Ejercicio 16: Credit Scoring Regresión Logística en SAS y R

  • Ejercicio 17: Credit Scoring Regresión Logística Lasso en R

  • Ejercicio 18: Riesgo de Modelo usando Intervalos de confianza de coeficientes de regresión logística 

Módulo 9: Árboles, KNN y Naive Bayes

 

  • Árboles de Decisión

    • Modelización

    • Ventajas e inconvenientes

    • Procesos de Recursión y Particionamiento

    • Recursive partitioning tree

    • Pruning Decision tree

    • Conditional inference tree

    • Visualización de árboles

    • Medición de la predicción de árboles de decisión

    • Modelo CHAID

    • Modelo C5.0

  • K-Nearest Neighbors KNN

    • Modelización

    • Ventajas e inconvenientes

    • Distancia Euclidiana

    • Distancia Manhattan

    • Selección del valor K

  • Modelo Probabilístico: Naive  Bayes

    • Bayes Ingenuo

    • Teorema de Bayes

    • Estimador de Laplace

    • Clasificación con Naive Bayes

    • Ventajas e inconvenientes

  • Ejercicio 19: Credit Scoring Árbol de decisión en SAS y R

  • Ejercicio 20: Credit Scoring KNN en R y SAS

  • Ejercicio 21: Credit Scoring Naive Bayes en R

Módulo 10: Support Vector Machine SVM

  • SVM con variables dummy

  • SVM

  • Hiperplano óptimo

  • Support Vectors

  • Añadir costes

  • Ventajas e Inconvenientes

  • Visualiización del SVM

  • Tuning SVM

  • Truco de Kernel

  • Ejercicio 22: Credit Scoring Support Vector Machine en R data 1

  • Ejercicio 23: Credit Scoring upport Vector Machine en Python data 2

Módulo 11: Ensemble Learning

  • Modelos de conjuntos

  • Bagging

  • Bagging trees

  • Random Forest

  • Boosting

  • Adaboost

  • Gradient Boosting Trees

  • Ventajas e inconvenientes

  • Ejercicio 24: Credit Scoring Boosting en R 

  • Ejercicio 25: Credit Scoring Bagging en R
  • Ejercicio 26: Credit Scoring Random Forest, R y Python, data 1 y 2

  • Ejercicio 27: Credit Scoring Gradient Boosting Trees

Módulo 12: Validación de modelos tradicionales y de Machine Learning

  • Validación Out of Sample y Out of time

  • Verificación p-values en regresiones

  • R cuadrado, MSE, MAD

  • Diagnóstico de los residuos

  • Test de Bondad de Ajuste​

  • Multicolinealidad

  • Matriz de confusión caso binario

  • Matriz de confusión caso multinomial

  • Principales test de poder discriminante​

  • Intervalos de confianza

  • Jackknifing con test de poder discriminante

  • Bootstrapping con test de poder discriminante

  • Estadístico Kappa

  • K-Fold Cross Validation

  • Ejercicio 28: Test de Bondad de Ajuste Regresión Logística

  • Ejercicio 29: Validación cruzada en SAS

  • Ejercicio 30: Estimación Gini, Valor de la Información, Brier Score, Curva Lift, CAP, ROC, Divergencia en SAS y Excel

  • Ejercicio 31: Bootstrapping de parámetros SAS

  • Ejercicio 32: Jackkinifng en SAS

  • Ejercicio 33: Bootstrapping de Gini/ROC en SAS

  • Ejercicio 34: Estimación Kappa

  • Ejercicio 35: K-Fold Cross Validation en R

  • Ejercicio 36: Validación semafórica out of time (horizonte 6 años) de modelos Logístico y de Machine Learning

VALIDACIÓN DE MODELOS

Módulo 14: Pruebas de estabilidad

  • Índice de estabilidad en modelo

  • Índice de estabilidad en factores

  • Test Xi-cuadrada

  • Test K-S

  • Ejercicio 37: Pruebas de estabilidad de modelos y de factores

DEEP LEARNING 

Módulo 15: Introducción al Deep Learning 

  • Definición y concepto del deep learning

  • ¿Porque ahora el uso del deep learning?

  • Redes Neuronales artificiales

  • Arquitecturas de redes neuronales

  • Función de activación

    • Sigmoidal

    • Rectified linear unit

    • Hipertangente

    • Softmax

  • Feedforward network

  • Perceptrón Multicapa

  • Uso de Tensorflow

  • Uso de Tensorboard

  • R deep Learning

  • Python deep Learning

  • Redes neuronales convolucionales

  • Uso del deep learning en la clasificación de imágenes

  • Función de costes

  • Optimización con Gradiente descendiente

  • Uso del deep learning para el credit scoring

    • ¿Cuantas capas ocultas?

    • ¿Cuantas neuronas, 100, 1000?

    • ¿Cuantas épocas y tamñao del batch size?

    • ¿Cual es la mejor función de activación?

  • Software Deep Learning: Caffe, H20, Keras, Microsoft, Matlab, etc.

  • Software de implementación: Nvidia y Cuda

  • Harware, CPU, GPU y entornos cloud

  • Ventajas e inconvenientes del deep learning

 

Módulo 16: Deep Learning Redes Neuronales Feed Forward

  • Single Layer Perceptron 

  • Multiple Layer Perceptron

  • Arquitecturas de redes neuronales

  • Función de activación

    • Sigmoidal

    • Rectified linear unit (Relu)

    • Elu

    • Selu

    • Hipertangente hiperbólica

    • Softmax

    • Otras

  • Back-propagation

    • Derivadas direccionales

    • Gradientes

    • Jacobianos

    • Regla de la cadena

    • Optimización y mínimos locales y globales

  • Ejercicio 38: Credit Scoring usando Deep Learning Feed Forward

Módulo 17: Deep Learning Redes Neuronales Convolucionales CNN

  • CNN para imagenes

  • Diseño y arquitecturas

  • Operación de convolución

  • Gradiente Descendiente

  • Filter

  • Strider

  • Padding

  • Subsampling

  • Pooling

  • Fully connected

  • Credit Scoring usando CNN

  • Estudios recientes de CNN aplicados al riesgo crédito y scoring

  • Ejercicio 39: Credit Scoring usando Deep Learning CNN

Módulo 18: Deep Learning Redes Neuronales Recurrentes RNN

  • Natural Language Processing

  • Natural Language Processing (NLP) text classification

  • Long Term Short Term Memory (LSTM)

  • Hopfield

  • Bidirectional associative memory

  • Gradiente Descendiente

  • Metodos de optimización globales

  • RNN  y LSTM en las finanzas

  • Modelos unidireccionales y bidireccionales

  • Deep Bidirectional Transformers for Language Understanding 

    • BERT Google

  • Ejercicio 40: Credit Scoring usando Deep Learning CNN vs RNN

  • Ejercicio 41: Credit Scoring usando Deep Learning LSTM

  • Ejercicio 42: Credit Scoring usando Deep Learning BERT

 

Módulo 19: Construcción de Scorecard y Reinforcement Learning

 

  • Asignación de puntuación

  • Clasificación del Scorecard

    • Scorecard WOE

    • Scorecard Binario

    • Scorecard Continuo

  • Reescalamiento del Scorecard

    • Análisis del Factor y Offset

    • Scorecard WOE

    • Scorecard Binario

  • Técnicas de Reject Inf erence

    • Cut-Off

    • Parcelling

    • Fuzzy Augmentation

    • Machine Learning

  • Técnicas Avanzadas de punto de corte 

    • Optimización del punto de corte usando curvas ROC

  • Reinforcement Learning​

    • Criterio de optimalidad

    • Agentes y entorno

    • Recompensa

    • Markov decisions processes

    • Fuerza Bruta

  • Ejercicio 43: Construcción de Tarjeta de Puntuación en Excel

  • Ejercicio 44: Estimación óptima punto de corte en Excel y riesgo de modelo por selección punto de corte

  • Ejercicio 45: Matriz de confusión para verificar Error Tipo 1 y Tipo 2 en Excel con y sin variables

 

Módulo 20: Riesgo de Modelo en el Credit Scoring

  • Riesgo de Modelo

  • Riesgo de Modelo en el deep learning

  • Riesgo de Modelo en el credit scoring

  • Cajas Negras

  • decisión de punto de corte

  • ausencia de datos

  • Riesgo de Modelo por no actualizar o recalibrar

  • Conceptos éticos del credit scoring

  • Ejercicio 46: Riesgo de modelo en credit scoring por no recalibrar a tiempo

Módulo 21: Modelos de Credit Scoring por producto

  • Credit Scoring de Admisión

    • Score de Tarjetas de crédito

    • Score de Hipotecas

    • Score de consumo

    • Score de Automóvil

  • Behavior Score (BS)

    • Horizonte temporal

    • Información de datos de panel

    • Regresión de datos de panel

    • Regresión Cox

    • Behavior Score con variables macroeconómicas

    • Matrices de transición

    • Behavior Score con matrices de transición 

    • Transaction Score

  • BEHAVIOR SCORE EN TARJETAS DE CRÉDITO

  • Ejercicio 47: Behavior Score  Regresión Logística en SAS data 1

  • Ejercicio 48: Behavior Score Regresión Logística en Python data 2

  • Ejercicio 49: Behavior Score Support Vector Machines en python

  • Ejercicio 50: Behavior Score Random Forest en python

  • Ejercicio 51: Behavior Score Gradient Boosting Trees en python

  • Ejercicio 52: Behavior Score Deep Learning en python

Módulo 22: Tipología de Scores

  • Response Score

  • Score de Ingresos

  • Score de Abandono

  • Score de Fraude en Admisión

  • Score de Fraude en Seguimiento

  • Collection Score

  • Recovery Score

  • Big Data Scoring

  • Ejercicio 53 : Fraud Score con redes neuronales

  • Ejercicio 54: Score de Ingresos

  • Ejercicio 55: Collection Score 

  • Ejercicio 56: Recovery Score 

  • Ejercicio 57 :Score de Abandono 

 

Módulo 23: Analítica Social para construir Modelos de Scoring

 

  • Analítica en las Redes Sociales

  • Definiciones de redes

  • Gráficos

  • Sociogramas

  • Vértices, bordes, nodos, pesos

  • Principales Métricas en la Analítica Social

  • Medidas de centralidad en las redes

  • Social Network learner

  • Local Model

  • Network Model

  • Probabilistic Relational Neighbor Classifier

  • Visualización de las Redes Sociales

  • Taxonomía de las visualizaciones

  • Visualización y analítica

  • Analítica Social en Facebook

  • Analítica Social en Twitter 

  • Analítica Social en Google Analytics 

  • Social Media Score

  • Ejercicio 58: Carga de datos y Gráficos en R

  • Ejercicio 59: Añadir Vértices en los gráficos R

  • Ejercicio 60: Visualización de Social Networks en R

  • Ejercicio 61: Social Media Score 


CALIBRACIÓN DE MODELOS DE PD

Módulo 24: Calibración de la Probabilidad de Default PD IRB

  • Estimación de la PD

    • Modelos econométricos

    • Modelos de Machine Learning

    • Requerimiento de datos

    • Risk drivers y criterio del credit scoring

    • Filosofía del rating

    • Tratamiento de los Pools

  • Calibración de la PD

    • ​Definición de Default

    • Long run average for PD

    • Defaults técnicos y filtros técnicos del default

    • Requerimiento de datos

    • Cálculo de tasa de default a un año

    • Cálculo de Tasa de default a largo plazo

  • Riesgo de Modelo de la PD

    • Margen de Conservadurismo

  • Técnicas de calibración

    • Estimación Anchor Point

    • Mapping de Score a PD

    • ​Ajuste al Ciclo Económico de la PD

    • Filosofía del Rating

      • Modelos PD Trough The Cycle (PD TTC)

      • Modelos PD Point in Time PD (PD PIT )

    • Calibración Scaled PD

    • Calibración Scaled Likelihood ratio

    • Suavizamiento de las curvas de PD

    • Quasi moment matching

  • Calibración de PD de modelos de Machine y Deep Learning

  • Ejercicio 62: Calibración de la PD por ajuste a la tendencia central

  • Ejercicio 63: Calibración de PD Anchor point

  • Ejercicio 64: Calibración de PD PIT con modelos no supervisados

  • Ejercicio 65: Calibración de PD en modelos de Machine Learning

  • Ejercicio 66: Modelización del Margen de Conservadurismo PD

  • Ejercicio 57: Calibración PD TTC

Módulo 25: Modelos de Machine Learning para

 PD Lifetime IFRS 9

  • PD Lifetime en IFRS 9

  • Modelos de Regresión

    • Regresión Logística

    • Regresión Multinomial Logística

    • Regresión Probit Ordinal

  • Modelo de Machine Learning​

    • SVM: Definición de función Kernel

    • Red Neuronal: definición de hiperparámetros y función de activación

  • Calibración de PD de modelos de Machine y Deep Learning

  • Ejercicio 67: PD Lifetime usando regresión logística

  • Ejercicio 68: PD Lifetime usando regresión multinomial en R

  • Ejercicio 69: PD Lifetime usando SVM en Python

  • Ejercicio 70: PD Lifetime usando Deep Learning en Python

 

VALIDACIÓN DE MODELOS DE PD

Módulo 26: Backtesting PD

 

  • Definición del Backtesting PD

  • Validación de Calibración de PD​

    • Normal test

    • Binomial Test

    • Traffic Light Approach

  • Análisis Semafórico y Cuadro de mando de la PD

  • PD Stability Test

  • Forecasting PD vs PD Real en el tiempo

  • ¿Cuando recalibrar o reestimar un modelo de credit scoring?

  • Re-development 

  • Re-estimation

  • Riesgo de Modelo en la PD

  • Machine Learning para validar los modelos de PD

  • Ejercicio 71: Backtesting de PD en Excel

  • Ejercicio 72: Forecasting PD y PD real en Excel