Credit Scoring: Machine y Deep Learning en

Python y R

OBJETIVO

El objetivo del curso es enseñar al participante a desarrollar y gestionar modernas y potentes herramientas de credit scoring, calibrar la probabilidad de default y validar los modelos.

 

El participante aprenderá a desarrollar modelos de credit scoring, tradicionales y avanzados, en la etapa de admisión y seguimiento del crédito. Es decir, se explica la construcción del credit y behavior scoring empleando volúmenes de información enormes.

 

Respecto a la analítica de datos, se expone un módulo, sobre el tratamiento avanzado de los datos, explicando entre otros temas, el muestreo, análisis exploratorio, segmentación y detección de outliers. 

 

Se exponen las principales técnicas del machine learning, aprendizaje supervisado, no supervisado y de refuerzo, aplicados a la creación de herramientas de credit scoring.

Se exponen metodologías tradicionales como la regresión logística y otras, innovadoras, de machine learning, tales como: árboles de decisión, naive bayes, KKN, Regresión logística LASSO, random forest, redes neuronales, redes bayesianas, Support Vector Machines, gradient boosting tree, etc .

Se explica el algoritmo avanzado deep learning para desarrollar potentes modelos de credit scoring que  los bancos pueden implementar como herramientas desafiantes o herramientas útiles en el proceso de admisión.

 

Se expone el uso del text mining para tratar variables que incluyan una cantidad importante de texto y sobre todo relacionarlas con la morosidad.

Se entregan más de 20 modelos de credit scoring, con distintas metodologías en diversos lenguajes de programación como lo son: R, Python, Jupyterlab, Tensorflow y SAS.

Se enseñan metodologías avanzadas para calibrar el parámetro de riesgo PD. Se aborda la calibración por ajuste a la tendencia central, la filosofía del rating  PD PIT y PD TTC, la calibración de modelos de machine learning para que produzcan probabilidades de default.

 

Se aborda la estimación del Margen de conservadurismo MoC requerida en Basilea IV para mitigar el riesgo de modelo en las herramientas de credit scoring.

Se indican las mejores prácticas de validación de modelos de credit scoring de las entidades financieras.

¿QUIÉNES DEBEN ASISTIR?

 

El Curso está dirigido a profesionistas de entidades financieras interesados en el desarrollar potentes modelos de credit scoring y calibrar la salida de los mismos, así como a responsables de modelos en los departamentos de riesgo crédito y ciencia de datos.

 

Para la mejor comprensión de los temas es necesario que el participante tenga conocimientos de estadística. Y es un plus si tiene conocimientos de Machine Learning.

Horarios:

  • Santiago de Chile, Sao Paulo, Buenos Aires, Santo Domingo: L a V: 18-21h

  • España, Portugal: L a V 19-22 h

 

  • Ciudad de México, Lima, Quito, Bogotá, San JoséL a V 19-22 h

Precio: 4.900 €

Nivel: Avanzado

Duración: 30 h

Material: 

Presentaciones PDF, Ejercicios Excel, R ,SAS, Python, Jupyterlab y Tensorflow

 

AGENDA Credit Scoring: Machine Learning, Validación y Calibración en Python y R 

Módulo 11: Ensemble Learning

 

  • Modelos de conjuntos

  • Bagging

  • Bagging trees

  • Random Forest

  • Boosting

  • Adaboost

  • Gradient Boosting Trees

  • Ventajas e inconvenientes

  • Ejercicio 26: Credit Scoring Boosting en R 

  • Ejercicio 27: Credit Scoring Bagging en R
  • Ejercicio 28: Credit Scoring Random Forest, R y Python, data 1 y 2

  • Ejercicio 29: Credit Scoring Gradient Boosting Trees

DEEP LEARNING 

Algoritmos Supervisados

Módulo 12: Deep Learning 

  • Definición y concepto del deep learning

  • ¿Porque ahora el uso del deep learning?

  • Arquitecturas de redes neuronales

  • Función de activación

    • Sigmoidal

    • Rectified linear unit

    • Hipertangente

    • Softmax

  • Feedforward network

  • Perceptrón Multicapa

  • Uso de Tensorflow

  • Uso de Tensorboard

  • R deep Learning

  • Python deep Learning

  • Redes neuronales convolucionales

  • Uso del deep learning en la clasificación de imágenes

  • Función de costes

  • Optimización con Gradiente descendiente

  • Uso del deep learning para el credit scoring

    • ¿Cuantas capas ocultas?

    • ¿Cuantas neuronas, 100, 1000?

    • ¿Cuantas épocas y tamñao del batch size?

    • ¿Cual es la mejor función de activación?

  • Software Deep Learning: Caffe, H20, Keras, Microsoft, Matlab, etc.

  • Software de implementación: Nvidia y Cuda

  • Harware, CPU, GPU y entornos cloud

  • Ventajas e inconvenientes del deep learning

  • Ejercicio 30: Credit Scoring usando Deep Learning  y Data 1

  • Ejercicio 31: Credit Scoring usando Deep Learning  y Data 2

 

Módulo 12: Deep Learning Redes Neuronales Convolucionadas

  • Definición y concepto del deep learning

  • ¿Porque ahora el uso del deep learning?

  • Arquitecturas de redes neuronales

  • Función de activación

    • Sigmoidal

    • Rectified linear unit

    • Hipertangente

    • Softmax

  • Feedforward network

Módulo 14: Riesgo de Modelo en el Scorecard

 

  • Asignación de puntuación

  • Clasificación del Scorecard

    • Scorecard WOE

    • Scorecard Binario

    • Scorecard Continuo

  • Reescalamiento del Scorecard

    • Análisis del Factor y Offset

    • Scorecard WOE

    • Scorecard Binario

  • Técnicas de Reject Inf erence

    • Cut-Off

    • Parcelling

    • Fuzzy Augmentation

  • Técnicas Avanzadas de punto de corte 

    • Optimización del punto de corte usando curvas ROC

  • Reinforcement Learning

    • Markov decisions processes

  • Riesgo de Modelo por decisión de punto de corte

  • Riesgo de Modelo por ausencia de datos

  • Riesgo de Modelo por no actualizar o recalibrar

  • Ejercicio 32: Construcción de Tarjeta de Puntuación en Excel

  • Ejercicio 33: Estimación óptima punto de corte en Excel y riesgo de modelo por selección punto de corte

  • Ejercicio 34: Matriz de confusión para verificar Error Tipo 1 y Tipo 2 en Excel con y sin variables

  • Ejercicio 35: Riesgo de modelo en credit scoring por no recalibrar a tiempo

Módulo 15: Modelos de Credit Scoring por producto

  • Credit Scoring de Admisión

    • Score de Tarjetas de crédito

    • Score de Hipotecas

    • Score de consumo

    • Score de Automóvil

  • Behavior Score (BS)

    • Horizonte temporal

    • Información de datos de panel

    • Regresión de datos de panel

    • Regresión Cox

    • Behavior Score con variables macroeconómicas

    • Matrices de transición

    • Behavior Score con matrices de transición 

    • Transaction Score

  • BEHAVIOR SCORE EN TARJETAS DE CRÉDITO

  • Ejercicio 36: Behavior Score  Regresión Logística en SAS data 1

  • Ejercicio 37: Behavior Score Regresión Logística en Python data 2

  • Ejercicio 38: Behavior Score Support Vector Machines en python

  • Ejercicio 39: Behavior Score Random Forest en python

  • Ejercicio 40: Behavior Score Gradient Boosting Trees en python

  • Ejercicio 41: Behavior Score Deep Learning en python

 

VALIDACIÓN DE MODELOS

Módulo 16: Validación de Modelos 

 

  • Lecciones aprendidas en la crisis financiera sobre validación​

  • Validation Framework

  • Definición de Validación

  • Principios de validación

  • Roles y Responsabilidades

  • Alcance y frecuencia

  • Proceso de Validación

  • Gobernanza Interna

  • Validación de Modelos IRB

  • Validación Cualitativa

    • Model Design

    • Data Quality

    • User Test

  • Validación Cuantitativa

    • Backtesting

    • Poder Discriminante

    • Pruebas de Estabilidad

  • Infraestructura tecnológica​

  • Documentación Requerida

  • Departamento y equipo de validación interna

  • Departamento  y equipo de Auditoria

Módulo 17: Validación de modelos tradicionales y de Machine Learning

  • Validación Out of Sample y Out of time

  • Verificación p-values en regresiones

  • R cuadrado, MSE, MAD

  • Diagnóstico de los residuos

  • Test de Bondad de Ajuste

    • Deviance

    • Bayesian Information Criterion (BIC)

    • Akaike Information Criterion 

  • Multicolinealidad Multivariante

  • Validación cruzada

  • Bootstrapping del error

  • Matriz de confusión caso binario

  • Matriz de confusión caso multinomial

  • Principales test de poder discriminante:

    • KS

    • Curva ROC

    • Curva Lift

    • Gini Index

    • Cumulative Accuracy Profile

    • Distancia de Kullback-Leibler

    • Pietra Index

    • 1-Ph

    • Entropía condicional

    • Valor de Información

    • Brier Score

    • Divergencia

    • Hosmer Lemeshow

  • Intervalos de confianza

  • Jackknifing con test de poder discriminante

  • Bootstrapping con test de poder discriminante

  • Estadístico Kappa

  • K-Fold Cross Validation

  • Análisis Semafórico

  • Ejercicio 42: Test de Bondad de Ajuste Regresión Logística

  • Ejercicio 43: Validación cruzada en SAS

  • Ejercicio 44: Estimación Gini, Valor de la Información, Brier Score, Curva Lift, CAP, ROC, Divergencia en SAS y Excel

  • Ejercicio 45: Bootstrapping de parámetros SAS

  • Ejercicio 46: Jackkinifng en SAS

  • Ejercicio 47: Bootstrapping de Gini/ROC en SAS

  • Ejercicio 48: Estimación Kappa

  • Ejercicio 49: K-Fold Cross Validation en R

  • Ejercicio 50: Validación semafórica out of time (horizonte 6 años) de modelos Logístico y de Machine Learning

Módulo 18: Pruebas de estabilidad

  • Índice de estabilidad en modelo

  • Índice de estabilidad en factores

  • Test Xi-cuadrada

  • Test K-S

  • Ejercicio 51: Pruebas de estabilidad de modelos y de factores

CALIBRACIÓN DE MODELOS DE PD

Módulo 19: Calibración de la Probabilidad de Default PD

  • Estimación de la PD

  • Modelos econométricos

  • Modelos de Machine Learning

  • Requerimiento de datos

  • Risk drivers y criterio del credit scoring

  • Filosofía del rating

  • Tratamiento de los Pools

  • Calibración de la PD

  • ​Definición de Default

  • Long run average for PD

  • Defaults técnicos y filtros técnicos del default

  • Requerimiento de datos

  • Cálculo de tasa de default a un año

  • Cálculo de Tasa de default a largo plazo

  • Riesgo de Modelo de la PD

    • Margen de Conservadurismo

  • Técnicas de calibración

  • Estimación Anchor Point

  • Mapping de Score a PD

  • ​Ajuste al Ciclo Económico de la PD

  • Filosofía del Rating

    • Modelos PD Trough The Cycle (PD TTC)

    • Modelos PD Point in Time PD (PD PIT )

  • Calibración Scaled PD

  • Calibración Scaled Likelihood ratio

  • Suavizamiento de las curvas de PD

  • Quasi moment matching

  • Calibración de PD de modelos de Machine y Deep Learning

  • Ejercicio 52: Calibración de la PD por ajuste a la tendencia central

  • Ejercicio 53: Calibración de PD Anchor point

  • Ejercicio 54: Calibración de PD PIT 

  • Ejercicio 55: Calibración de PD en modelos de Machine Learning

  • Ejercicio 56: Modelización del Margen de Conservadurismo PD

  • Ejercicio 57: Calibración PD TTC

VALIDACIÓN DE MODELOS DE PD

Módulo 20: Backtesting PD

 

  • Definición del Backtesting PD

  • Validación de Calibración de PD

    • Hosmer Lameshow test

    • Normal test

    • Binomial Test

    • Spiegelhalter test

    • Redelmeier Test

    • Traffic Light Approach

  • Análisis Semafórico y Cuadro de mando de la PD

  • PD Stability Test

  • Forecasting PD vs PD Real en el tiempo

  • Validación con simulación de Monte Carlo

  • ¿Cuando recalibrar o reestimar un modelo de credit scoring?

  • Re-development 

  • Re-estimation

  • Riesgo de Modelo en la PD

  • Machine Learning para validar los modelos de PD

  • Ejercicio 58: Backtesting de PD en Excel

  • Ejercicio 59: Forecasting PD y PD real en Excel

  • Ejercicio 60: Validación usando Simulación de Monte Carlo en Python

Módulo 1: Big Data y Disrupción digital

 

  • Definición de Big Data

  • Big Data en las entidades financieras y fintech

  • Big data en las Bigtech

  • Tipología de datos

    • Estructurados

    • Semiestructurados

    • Datos No Estructurados

  • Big data: Volumen, Velocidad, Variedad, Veracidad y Valor

  • Tamaño de los Big Data

  • Fuentes de grandes volúmenes de datos

    • Data transaccional

    • Data de redes sociales

    • Data de buró de crédito

    • Origen de las fuentes de datos

    • Los datos de la web

    • Datos de Texto

    • Datos de sensores

    • Datos de RFID y NFC

    • Datos de operadores de telecos

    • Datos de redes inteligentes

  • Digitalización bancaria​

  • Inclusión financiera

  • Regulación en Europa, EEUU y Latinoamérica

 

Módulo 2: Credit Scoring 

 

  • Credit Scoring para Banca

  • Credit Scoring con big data

  • Diseño y Construcción de Modelos de Credit Scoring

  • Ventajas e Inconvenientes

  • Modelos para afrontar nuevas crisis financierias

  • Machine Learning para desarrollar y validar credit scoring

  • Importancia del Bureau Score

  • Gestión de los Credit Scorecards

  • Estimación de la Probabilidad de Default PD 

Módulo 3: Machine Learning

 

  • Definición del Machine Learning 

  • Metodología del Machine Learning

    • Almacenamiento de la Data

    • Abstracción

    • Generalización

    • Evaluación

  • Aprendizaje Supervisado

  • Aprendizaje No Supervisado

  • Aprendizaje por Refuerzo

  • Deep Learning

  • Tipología de algoritmos de Machine Learning

  • Pasos para implementar un algoritmo

    • Recogida de información

    • Análisis Exploratorio

    • Entrenamiento del modelo

    • Evaluación del Modelo

    • Mejoras al modelo

    • Machine Learning en riesgo crédito de consumo

  • Machine Learning en modelos de credit scoring

  • Análisis de principales herramientas: R, Python, Microsoft Azure, SAS  Enterprise Miner, SAS Visual Analytics, Knime, IBM SPSS Modelller, Spark,,etc.

 

MODELIZACIÓN

Módulo 4: Análisis Exploratorio 

  • Tipología de datos 

  • Datos transaccionales

  • Unstructured data embebida en documentos de texto

  • Social Media Data

  • Fuentes de datos

  • Revisión del dato

  • Definición del Target

  • Horizonte temporal de la variable objetivo

  • Muestreo

    • Muestreo Aleatorio

    • Muestreo Estratificado

    • Muestreo Rebalanceado

  • Análisis Exploratorio:

    • Histogramas

    • Q-Q Plot

    • Análisis de momentos

    • Box Plot

  • Tratamiento de los valores Missing

    • Modelo Multivariante de Imputación

  • Técnicas avanzadas de detección de Outliers y tratamiento

    • Técnica univariante: winsorized y trimming

    • Técnica Multivariante: Distancia de Mahalanobis

Módulo 5: Análisis Univariante

  • Estandarización de los Datos

  • Categorización de variables

    • Equal Interval Binning

    • Equal Frecuency Binning

    • Prueba Ji-Cuadrada

  • Binary Coding

  • WOE Coding

    • Definición WOE

    • Análisis Univariante con variable Target

    • Selección de variables

    • Tratamiento de Variables continuas

    • Tratamiento de Variables Categóricas

    • Gini

    • Information Value

    • Optimización de variables continuas

    • Optimización de variables categóricas

  • ​Ejercicio 1: Análisis Exploratorio en R

  • Ejercicio 2: Detección y tratamiento de Outliers Avanzado

  • Ejercicio 3: Muestreo estratificado y Aleatorio en R

  • Ejercicio 4: Modelo multivariante de impuación

  • Ejercicio 5: Análisis univariante en percentiles en R

  • Ejercicio 6: Análisis univariante óptimo variable continua en Excel

  • Ejercicio 7: Estimación del KS, Gini e IV de cada variable en Excel

  • Ejercicio 8: Análisis Word Cloud de variables en R

Módulo 6: Modelo predictivo univariante 

usando Text Mining

  • Definición Text Mining

  • Modelo para variables con contenido descriptivo

  • Unstructured Data

  • Análisis Exploratorio

  • Treemaps

  • Modelización predictiva en el Text Mining

    • K-Nearest Neighbors

  • Text Mining Predictivo

    • Keyword Search

    • Algortimos de clasificación

    • Algoritmos Clustering

  • Sentimiento en lingüística y Psicología

    • Subjetividad

    • Facticidad

  • Lingüística Computacional

    • Lexicón y Corpora

    • Enfoque basado en reglas

    • Enfoque Machine Learning 

  • Análisis de Sentimientos en Twitter

    • Análisis  y Score de polaridad

    • Support Vector Machine

  • Ejercicio 9: Análisis Word Cloud de variables en R

  • Ejercicio 10: Text Mining aplicado a la data no estructurada 

  • Ejercicio 11: Score de polaridad 

  • Ejercicio 12: Análisis de Sentimientos usando SVM para detectar defaults 

MACHINE LEARNING

Aprendizaje No Supervisado

Módulo 7: Modelos no supervisados

  • Clusters Jerárquicos

  • K-Means

  • Algoritmo estándar

  • Distancia Euclidiana

  • Análisis de Componentes principales (PCA)

  • Visualización avanzada de PCA

  • Eigenvectores e Eigenvalores
  • Ejercicio 14: Componentes principales en R y SAS

  • Ejercicio 15: Segmentación de la data con K-Means R

Aprendizaje Supervisado

Módulo 8: Regresión Logística y Regresión LASSO

 

  • Modelos Econométricos 

    • Regresión Logit

    • Regresión probit
    • Regresión Piecewise

    • Modelos de supervivencia

  • Modelos de Machine Learning

    • Regresión Lasso

    • Regresión Ridge

  • Riesgo de Modelo en la regresión logística

  • Ejercicio 16: Credit Scoring Regresión Logística en SAS y R

  • Ejercicio 17: Credit Scoring Regresión Logística Lasso en R

  • Ejercicio 18: Riesgo de Modelo usando Intervalos de confianza de coeficientes de regresión logística 

Módulo 7: Árboles, KNN y Naive Bayes

 

  • Árboles de Decisión

    • Modelización

    • Ventajas e inconvenientes

    • Procesos de Recursión y Particionamiento

    • Recursive partitioning tree

    • Pruning Decision tree

    • Conditional inference tree

    • Visualización de árboles

    • Medición de la predicción de árboles de decisión

    • Modelo CHAID

    • Modelo C5.0

  • K-Nearest Neighbors KNN

    • Modelización

    • Ventajas e inconvenientes

    • Distancia Euclidiana

    • Distancia Manhattan

    • Selección del valor K

  • Modelo Probabilístico: Naive  Bayes

    • Bayes Ingenuo

    • Teorema de Bayes

    • Estimador de Laplace

    • Clasificación con Naive Bayes

    • Ventajas e inconvenientes

  • Ejercicio 19: Credit Scoring Árbol de decisión en SAS y R

  • Ejercicio 20: Credit Scoring KNN en R y SAS

  • Ejercicio 21: Credit Scoring Naive Bayes en R

Módulo 9: Support Vector Machine SVM

  • SVM con variables dummy

  • SVM

  • Hiperplano óptimo

  • Support Vectors

  • Añadir costes

  • Ventajas e Inconvenientes

  • Visualiización del SVM

  • Tuning SVM

  • Truco de Kernel

  • Ejercicio 22: Credit Scoring Support Vector Machine en R data 1

  • Ejercicio 23: Credit Scoring upport Vector Machine en Python data 2

Módulo 10: Redes Neuronales (Neural Networks NN)

  • Neurona artifical

  • Entrenamiento de Perceptron

  • Perceptrón 

  • Algoritmo de backpropagation

  • Procedimientos de entrenamiento

  • Tuning NN 

  • Visualización de NN

  • Ventajas e inconvenientes

  • Ejercicio 24: Credit Scoring Redes Neuronales: perceptron multicapas en R data 1

  • Ejercicio 25: Credit Scoring Redes Neuronales en Python data 2