Credit Scoring, Machine Learning y Validación en Python y R 

 

OBJETIVO

 

Curso innovador sobre técnicas de machine learning, aprendizaje de máquinas en castellano, aplicado al desarrollo de herramientas de credit scoring. Empleando ejercicios reales y usando los potentes lenguajes Python y R.

 

Respecto a la analítica de datos, se expone un módulo, sobre el tratamiento avanzado de los datos, explicando entre otros temas, el muestreo, análisis exploratorio, detección de outliers, técnicas avanzadas de segmentación y algoritmos de clasificación. 

 

Se muestran modelos predictivos tanto econométricos, como de machine learning tales como: árboles de decisión, redes neuronales, redes bayesianas, Support Vector Machine, modelo de conjuntos, etc. Además, se explica, detalladamente, como validar modelos de machine learning para evitar sobreajustes.

 

Se muestran metodologías avanzadas para desarrollar no solo modelos de credit scoring, sino modelos de comportamiento, llamados Behavior scoring.

Durante el curso se revisan otros modelos de scoring usados en el ciclo de crédito:

  • Score de Ingresos

  • Score de Abandono

  • Score de Fraude en Admisión

  • Score de Fraude en Seguimiento

  • Collection Score

  • Recovery Score

  • Revenue Score

  • Big Data Scoring

¿QUIÉNES DEBEN ASISTIR?

 

El Curso esta dirigido a profesionistas de entidades financieras interesados en el Big Data Analytics, así como a los responsables de los departamentos de marketing, crédito, riesgos, fraude, finanzas y recuperaciones. Para la mejor comprensión de los temas es recomendable que el participante tenga conocimientos de estadística.

 

Horarios:

  • Santiago de Chile, Sao Paulo, Buenos Aires, Santo Domingo: L a V: 18-21h

  • España, Portugal: L a V 19-22 h

 

  • Ciudad de México, Lima, Quito, Bogotá, San JoséL a V 19-22 h

Precio: 3.900 €

Nivel: Avanzado

Duración: 24 h

Material: 

Presentaciones PDF, Ejercicios Excel y R

Ejercicios en Python

Ejercicios en Jupyter Notebook

 

AGENDA Credit Scoring, Machine Learning y Validación en Python y R 

Módulo 1: Programación en Pyhton

 

  • ¿Que es Python? 

  • Crecimiento exponencial del uso de Python

  • Pyhton en el sector bancario

  • Instalación de Python

  • Importación de archivos

  • Tratatamiento de datos

  • Variables y programación

  • Construcción de funciones

  • Principales sentencias de programación

  • Datos fuentes de internet

  • Numpy, Scipy, Scikit-lern,panda y Matplotlib

  • Instalación y uso  de Anaconda

  • Ejercicio a1: Cálculadora financiera

  • Ejercicio a2: Importación y modelos de series temporales

  • Ejercicio a3: Simulación de Monte Carlo en Python 

Módulo 2: Programación en R

 

  • Introducción de R

  • ¿Porque usar R en la Banca?

  • Instalación y Actualización de R

  • R con Windows

  • R con Linux y Unix

  • Programación en R

    • Principales Sentencias

    • Operadores 

    • Dataframes 

    • Arrays

    • Matrices

    • Principales funciones

  • Librerias, Paquetes y CRAN 

  • Importar Bases de datos en R

  • Manipulación y gestión de bases de datos en R

  • Gestión de Outputs

  • Procedimientos Estadísticos

    • Estadística Descriptiva

    • Análisis Exploratorio

  • Ejercicio b1: Ejercicios de programación en R

  • Ejercicio b2:Fusión,Unión e Intersección de Bases de Datos R/SQL

  • Ejercicio b3:Tratamiento de Base de Datos de Credit Scoring

  • Ejercicio b4:Eliminación de duplicados

  • Ejercicio b5:Imputación de valores Missing

  • Ejercicio b6:Estadísticos y tablas de contigencia en R

  • Ejercicio b7:Gráficos Estadísticos en R

Módulo 3: Big Data y Machine Learning en Banca

 

  • Big Data en las entidades financieras

  • Tipología de datos: Estructurados y No Estructurados

  • Volumen, Velocidad, Variedad, Veracidad y valor

  • Tamaño de los Big Data

  • Fuentes de grandes volúmenes

  • Origen de las fuentes de datos

  • Big Data Analytics en Marketing

  • Adquisición, mantenimiento y retención de Clientes

  • Análisis de sentimientos en Marketing

  • Customer 360º

  • Mejoras de campañas de marketing

  • Modelos de abandono

  • Segmentación y optimización del pricing

  • Canales de distribución

  • Casos de estudio

  • Machine Learning en la gestión de Riesgos y Finanzas

  • Riesgos financieros

  • Modelos predictivos de riesgo crédito

  • Modelos de provisiones

  • Analítica de fraude

  • Stress testing 

  • Real Time Monitoring

  • Riesgo de Mercado 

  • Riesgo de liquidez

  • Riesgo de contraparte

  • Uso de redes sociales en la gestión de riesgos

  • Análisis de Portfolio de Inversiones

 

Módulo 4: Machine Learning

 

  • Definición del Machine Learning 

  • Metodología del Machine Learning

    • Almacenamiento de la Data

    • Abstracción

    • Generalización

    • Evaluación

  • Aprendizaje Supervisado y No Supervisado

  • Tipología de algoritmos de Machine Learning

  • Pasos para implementar un algoritmo

    • Recogida de información

    • Análisis Exploratorio

    • Entrenamiento del modelo

    • Evaluación del Modelo

    • Mejoras al modelo

    • Machine Learning en riesgo crédito de consumo

  • Machine Learning en modelos de credit scoring

  • Principales Herramientas: Python, R, Microsoft Azure, SAS  Enterprise Miner, SAS Visual Analytics, Knime, IBM SPSS Modelller,etc.

 

 

Módulo 5: Análisis Exploratorio Avanzado

  • Tipología de datos

  • Datos transaccionales

  • Unstructured data embebida en documentos de texto

  • Social Media Data

  • Fuentes de datos

  • Revisión del dato

  • Definición del Target

  • Horizonte temporal de la variable objetivo

  • Muestreo

    • Muestreo Aleatorio

    • Muestreo Estratificado

    • Muestreo Rebalanceado

  • Análisis Exploratorio:

    • Histogramas

    • Q-Q Plot

    • Análisis de momentos

    • Box Plot

  • Tratamiento de los valores Missing

    • Imputación

    • Borrar

    • Mantener

  • Técnicas avanzadas de detección de Outliers y tratamiento

    • Z-Score

    • Distancia de Mahalanobis

  • Estandarización de los Datos

  • Categorización de variables

    • Equal Interval Binning

    • Equal Frecuency Binning

    • Prueba Ji-Cuadrada

  • Binary Coding

  • WOE Coding

    • Definición WOE

    • Análisis Univariante con variable Target

    • Selección de variables

    • Tratamiento de Variables continuas

    • Tratamiento de Variables Categóricas

    • Fisher Score

    • Gini

    • Information Value

    • Pearson Correlation

    • Cramer Von Misses

    • Optimización de variables continuas

    • Optimización de variables categóricas

  • Ejercicio 1: Muestra de entrenamiento y validación en R

  • Ejercicio 2: Tratamiento de los datos de panel 

  • Ejercicio 3: Tratamiento de valores missing

  • ​Ejercicio 4: Análisis Exploratorio en R

  • Ejercicio 5: Detección y tratamiento de Outliers usando Z-score

  • Ejercicio 7: Muestreo estratificado y Aleatorio en R

  • Ejercicio 8: Análisis del Weight of Evidence en Python 

  • Ejercicio 9: Análisis univariante en percentiles en R

  • Ejercicio 10: Análisis univariante óptimo variable continua en Excel

  • Ejercicio 11: Estimación del KS, Gini e IV de cada variable en Excel

  • Ejercicio 12: Validación de variables usando Pearson correlation y Fisher Score

  • Ejercicio 13: Análisis Univariante con árboles de decisión en R

Módulo 6: Segmentación, Clustering y Análisis de Componentes Principales

 

  • Clusters Jerárquicos

  • Dendrograma

  • Model Based Clustering

  • Density Based Clustering

  • Comparativo de Clusters

    • Distancia Interclusters

    • Distancia Intraclusters

  • Gráfico de disimilitud

  • Validación de Clusters

  • Análisis de Componentes principales (PCA)

  • Visualización avanzada de PCA

  • Ejercicio 14: Componentes principales en R y Python

  • Ejercicio 15: Visualización de componentes principales en R

Módulo 7:Algoritmos de Clasificación 

 

  • Árboles de Decisión

    • Modelización

    • Ventajas e inconvenientes

    • Procesos de Recursión y Particionamiento

    • Recursive partitioning tree

    • Pruning Decision tree

    • Conditional inference tree

    • Visualización de árboles

    • Medición de la predicción de árboles de decisión

    • Modelo CHAID

    • Modelo C5.0

  • K-Nearest Neighbors

    • Modelización

    • Ventajas e inconvenientes

    • Distancia Euclidiana

    • Distancia Manhattan

    • Selección del valor K

  • Modelo Probabilístico: Naive  Bayes

    • Teorema de Bayes

    • Estimador de Laplace

    • Clasificación con Naive Bayes

    • Ventajas e inconvenientes

  • Ejercicio 16: Árbol de decisión en Python y R

  • Ejercicio 17: KNN en R y Python

  • Ejercicio 18: Naive Bayes en R

Módulo 9: Algoritmos Avanzados NN ySVM

 

  • Support Vector Machine

    • Hiperplano óptimo

    • Support Vectors

    • Añadir costes

    • Ventajas e Inconvenientes

    • Visualiización del SVM

    • Tuning SVM

    • Truco de Kernel

  • Redes Neuronales (Neural Networks NN)

    • Entrenamiento de Perceptron

    • Perceptrón Multicapa

    • Algoritmo de backpropagation

    • Procedimientos de entrenamiento

    • Tuning NN 

    • Visualización de NN

    • Ventajas e inconvenientes

  • Ejercicio 19: Support Vector Machine en R

  • Ejercicio 20: Support Vector Machine en Python

  • Ejercicio 21: Redes Neuronales: perceptron en R y Python

Módulo 10: Ensemble Learning

 

  • Modelos de conjuntos

  • Bagging

  • Random Forest

  • Boosting

  • Adaboost

  • Boosting y Bagging para modelos de regresión

  • Ventajas e inconvenientes

  • Ejercicio 22: Ensemble models en R y Python

  • Ejercicio 23: Random Forest en Python

  • Ejercicio 24: Adaboost en R

 

Módulo 11: Desarrollo de Scorecards

 

  • Asignación de puntuación

  • Clasificación del Scorecard

    • Scorecard WOE

    • Scorecard Binario

    • Scorecard Continuo

  • Reescalamiento del Scorecard

    • Análisis del Factor y Offset

    • Scorecard WOE

    • Scorecard Binario

  • Técnicas de Reject Inference

    • Cut-Off

    • Parcelling

    • Fuzzy Augmentation

  • Técnicas Avanzadas de punto de corte 

  • Ejercicio 25: Scorecard WOE en Excel y R 

  • Ejercicio 26: Reject Inference Fuzzy Augmentation en R

  • Ejercicio 27: Selección del Punto de Corte en Excel y R

Módulo 12: Validación del modelos

 

  • Verificación p-values en regresiones

  • R cuadrado, MSE, MAD

  • Diagnóstico de los residuos

  • Test de Bondad de Ajuste

    • Deviance

    • Bayesian Information Criterion (BIC)

    • Akaike Information Criterion 

  • Multicolinealidad Multivariante

  • Validación cruzada

  • Bootstrapping del error

  • Matriz de confusión caso binario

  • Matriz de confusión caso multinomial

  • Prueba de Estabilidad

  • Principales test de poder discriminante:

    • KS

    • Curva ROC

    • Curva Lift

    • Gini Index

    • Cumulative Accuracy Profile

    • Distancia de Kullback-Leibler

    • Pietra Index

    • Entropía condicional

    • Valor de Información

    • Tau de Kendall

    • Brier Score

    • Distancia de Mahalanobis

    • Divergencia

    • Hosmer Lemeshow

  • Intervalos de confianza

  • Jackknifing con test de poder discriminante

  • Bootstrapping con test de poder discriminante

  • Estadístico Kappa

  • K-Fold Cross Validation

  • Ejercicio 28: Test de Bondad de Ajuste Regresión líneal

  • Ejercicio 29: Test de Bondad de Ajuste Regresión Logística

  • Ejercicio 30: Estimación Gini, Valor de la Información, Brier Score, Curva Lift, CAP, ROC, Divergencia en  Excel

  • Ejercicio 31: Bootstrapping de parámetros R

  • Ejercicio 32: Jackkinifng en R

  • Ejercicio 33: Bootstrapping de Gini/ROC en R

  • Ejercicio 34: K-Fold Cross Validation en R

 

Módulo 14: Behavior Score y Credit Score

 

  • Modelos predictivos en consumo

  • Tipología de scores:

    • Response Scoring

    • Income Score

    • DTI Score

    • Credit Scoring de Admisión

      • Score de Tarjetas de crédito

      • Score de Hipotecas

      • Score de consumo

      • Score de Automóvil

    • Behavior Score

      • Behavior Score con variables macroeconómicas

      • Matrices de transición

      • Behavior Score con matrices de transición 

      • Transaction Score

  • Matrices duales

  • CREDIT SCORING EN CONSUMO

  • Ejercicio 35: Regresión Logística en R

  • Ejercicio 36: Redes Neuronales: perceptron en R y Python

  • Ejercicio 37: Árboles de decisión CHAID en R

  • Ejercicio 38: Support vector machines en R

  • Ejercicio 39: Ensemble models Credit Scoring en Python 

  • BEHAVIOR SCORE EN TARJETAS DE CRÉDITO

  • Ejercicio 40: Regresión Logística Panel Data en R

  • Ejercicio 41: Support vector machines en python

  • Ejercicio 42: Árboles de decisión C5.0 en R
  • Ejercicio 43: Random Forest en python
  • ​Ejercicio 44: Ensemble models Behavior Scoring en R

Módulo 15: Otros modelos de scoring

  • Response Scoring

  • Income Score

  • DTI Score

  • Credit Scoring de Admisión

    • Score de Tarjetas de crédito

    • Score de Hipotecas

    • Score de consumo

    • Score de Automóvil

  • Behavior Score

  • Response Score

  • Transaction Score

  • Score de Ingresos

  • Score de Abandono

  • Score de Fraude en Admisión

  • Score de Fraude en  Seguimiento

  • Collection Score

  • Recovery Score

  • Revenue Score

  • Big Data Scoring

    • Ventajas y criticas

  • Ejercicio 45 : Fraud Score con redes neuronales

  • Ejercicio 46: Score de Ingresos en R

  • Ejercicio 47: Collection Score en R

  • Ejercicio 48: Recovery Score Excel y R

  • Ejercicio 49: Debt To Income Score en R

  • Ejercicio 50 :Score de Abandono en R