Credit Scoring Machine Learning en Python y R

concepto-analisis-grafico-negocio-estrategia-crecimiento-generacion-ia.jpg

Credit Scoring, Machine Learning y Validación en Python y R

OBJETIVO

Curso innovador sobre técnicas de machine learning, aprendizaje de máquinas en castellano, aplicado al desarrollo de herramientas de credit scoring. Empleando ejercicios reales y usando los potentes lenguajes Python y R.

Respecto a la analítica de datos, se expone un módulo, sobre el tratamiento avanzado de los datos, explicando entre otros temas, el muestreo, análisis exploratorio, detección de outliers, técnicas avanzadas de segmentación y algoritmos de clasificación.

Se muestran modelos predictivos tanto econométricos, como de machine learning tales como: árboles de decisión, redes neuronales, redes bayesianas, Support Vector Machine, modelo de conjuntos, etc. Además, se explica, detalladamente, como validar modelos de machine learning para evitar sobreajustes.

Se muestran metodologías avanzadas para desarrollar no solo modelos de credit scoring, sino modelos de comportamiento, llamados Behavior scoring.

Durante el curso se revisan otros modelos de scoring usados en el ciclo de crédito:

Score de Ingresos
Score de Abandono
Score de Fraude en Admisión
Score de Fraude en Seguimiento
Collection Score
Recovery Score
Revenue Score
Big Data Scoring

¿QUIÉNES DEBEN ASISTIR?

El Curso esta dirigido a profesionistas de entidades financieras interesados en el Big Data Analytics, así como a los responsables de los departamentos de marketing, crédito, riesgos, fraude, finanzas y recuperaciones. Para la mejor comprensión de los temas es recomendable que el participante tenga conocimientos de estadística.

fondo-azul-degradado-lujo-abstracto-azul-oscuro-liso-banner-estudio-vineta-negra.jpg

Horarios:

Santiago de Chile, Sao Paulo, Buenos Aires, Santo Domingo: L a V: 18-21h

España, Portugal: L a V 19-22 h

Ciudad de México, Quito, Bogotá, San José: L a V 19-22 h

Precio: 3.900 €

Nivel: Básico

Duración: 24 h

Material:

Presentaciones PDF, Ejercicios Excel y R

Ejercicios en Python

Ejercicios en Jupyter Notebook

AGENDA
Credit Scoring, Machine Learning y Validación en Python y R

Módulo 1: Programación en Pyhton

¿Que es Python?
Crecimiento exponencial del uso de Python
Pyhton en el sector bancario
Instalación de Python
Importación de archivos
Tratatamiento de datos
Variables y programación
Construcción de funciones
Principales sentencias de programación
Datos fuentes de internet
Numpy, Scipy, Scikit-lern,panda y Matplotlib
Instalación y uso de Anaconda
Ejercicio a1: Cálculadora financiera
Ejercicio a2: Importación y modelos de series temporales
Ejercicio a3: Simulación de Monte Carlo en Python

Módulo 2: Programación en R

Introducción de R
¿Porque usar R en la Banca?
Instalación y Actualización de R
R con Windows
R con Linux y Unix
Programación en R
- Principales Sentencias
- Operadores
- Dataframes
- Arrays
- Matrices
- Principales funciones
Librerias, Paquetes y CRAN
Importar Bases de datos en R
Manipulación y gestión de bases de datos en R
Gestión de Outputs
Procedimientos Estadísticos
- Estadística Descriptiva
- Análisis Exploratorio
Ejercicio b1: Ejercicios de programación en R
Ejercicio b2:Fusión,Unión e Intersección de Bases de Datos R/SQL
Ejercicio b3:Tratamiento de Base de Datos de Credit Scoring
Ejercicio b4:Eliminación de duplicados
Ejercicio b5:Imputación de valores Missing
Ejercicio b6:Estadísticos y tablas de contigencia en R
Ejercicio b7:Gráficos Estadísticos en R

Módulo 3: Big Data y Machine Learning en Banca

Big Data en las entidades financieras
Tipología de datos: Estructurados y No Estructurados
Volumen, Velocidad, Variedad, Veracidad y valor
Tamaño de los Big Data
Fuentes de grandes volúmenes
Origen de las fuentes de datos
Big Data Analytics en Marketing
Adquisición, mantenimiento y retención de Clientes
Análisis de sentimientos en Marketing
Customer 360º
Mejoras de campañas de marketing
Modelos de abandono
Segmentación y optimización del pricing
Canales de distribución
Casos de estudio
Machine Learning en la gestión de Riesgos y Finanzas
Riesgos financieros
Modelos predictivos de riesgo crédito
Modelos de provisiones
Analítica de fraude
Stress testing
Real Time Monitoring
Riesgo de Mercado
Riesgo de liquidez
Riesgo de contraparte
Uso de redes sociales en la gestión de riesgos
Análisis de Portfolio de Inversiones

Módulo 4: Machine Learning

Definición del Machine Learning
Metodología del Machine Learning
- Almacenamiento de la Data
- Abstracción
- Generalización
- Evaluación
Aprendizaje Supervisado y No Supervisado
Tipología de algoritmos de Machine Learning
Pasos para implementar un algoritmo
- Recogida de información
- Análisis Exploratorio
- Entrenamiento del modelo
- Evaluación del Modelo
- Mejoras al modelo
- Machine Learning en riesgo crédito de consumo
Machine Learning en modelos de credit scoring
Principales Herramientas: Python, R, Microsoft Azure, SAS Enterprise Miner, SAS Visual Analytics, Knime, IBM SPSS Modelller,etc.

Módulo 5: Análisis Exploratorio Avanzado

Tipología de datos
Datos transaccionales
Unstructured data embebida en documentos de texto
Social Media Data
Fuentes de datos
Revisión del dato
Definición del Target
Horizonte temporal de la variable objetivo
Muestreo
- Muestreo Aleatorio
- Muestreo Estratificado
- Muestreo Rebalanceado
Análisis Exploratorio:
- Histogramas
- Q-Q Plot
- Análisis de momentos
- Box Plot
Tratamiento de los valores Missing
- Imputación
- Borrar
- Mantener
Técnicas avanzadas de detección de Outliers y tratamiento
- Z-Score
- Distancia de Mahalanobis
Estandarización de los Datos
Categorización de variables
- Equal Interval Binning
- Equal Frecuency Binning
- Prueba Ji-Cuadrada
Binary Coding
WOE Coding
- Definición WOE
- Análisis Univariante con variable Target
- Selección de variables
- Tratamiento de Variables continuas
- Tratamiento de Variables Categóricas
- Fisher Score
- Gini
- Information Value
- Pearson Correlation
- Cramer Von Misses
- Optimización de variables continuas
- Optimización de variables categóricas
Ejercicio 1: Muestra de entrenamiento y validación en R
Ejercicio 2: Tratamiento de los datos de panel
Ejercicio 3: Tratamiento de valores missing
Ejercicio 4: Análisis Exploratorio en R
Ejercicio 5: Detección y tratamiento de Outliers usando Z-score
Ejercicio 7: Muestreo estratificado y Aleatorio en R
Ejercicio 8: Análisis del Weight of Evidence en Python
Ejercicio 9: Análisis univariante en percentiles en R
Ejercicio 10: Análisis univariante óptimo variable continua en Excel
Ejercicio 11: Estimación del KS, Gini e IV de cada variable en Excel
Ejercicio 12: Validación de variables usando Pearson correlation y Fisher Score
Ejercicio 13: Análisis Univariante con árboles de decisión en R

Módulo 6: Segmentación, Clustering y Análisis de Componentes Principales

Clusters Jerárquicos
Dendrograma
Model Based Clustering
Density Based Clustering
Comparativo de Clusters
- Distancia Interclusters
- Distancia Intraclusters
Gráfico de disimilitud
Validación de Clusters
Análisis de Componentes principales (PCA)
Visualización avanzada de PCA
Ejercicio 14: Componentes principales en R y Python
Ejercicio 15: Visualización de componentes principales en R

Módulo 7: Algoritmos de Clasificación

Árboles de Decisión
- Modelización
- Ventajas e inconvenientes
- Procesos de Recursión y Particionamiento
- Recursive partitioning tree
- Pruning Decision tree
- Conditional inference tree
- Visualización de árboles
- Medición de la predicción de árboles de decisión
- Modelo CHAID
- Modelo C5.0
K-Nearest Neighbors
- Modelización
- Ventajas e inconvenientes
- Distancia Euclidiana
- Distancia Manhattan
- Selección del valor K
Modelo Probabilístico: Naive Bayes
- Teorema de Bayes
- Estimador de Laplace
- Clasificación con Naive Bayes
- Ventajas e inconvenientes

Ejercicio 16: Árbol de decisión en Python y R
Ejercicio 17: KNN en R y Python
Ejercicio 18: Naive Bayes en R

Módulo 9: Algoritmos Avanzados NN ySVM

Support Vector Machine
- Hiperplano óptimo
- Support Vectors
- Añadir costes
- Ventajas e Inconvenientes
- Visualiización del SVM
- Tuning SVM
- Truco de Kernel
Redes Neuronales (Neural Networks NN)
- Entrenamiento de Perceptron
- Perceptrón Multicapa
- Algoritmo de backpropagation
- Procedimientos de entrenamiento
- Tuning NN
- Visualización de NN
- Ventajas e inconvenientes

Ejercicio 19: Support Vector Machine en R
Ejercicio 20: Support Vector Machine en Python
Ejercicio 21: Redes Neuronales: perceptron en R y Python

Módulo 10: Ensemble Learning

Modelos de conjuntos
Bagging
Random Forest
Boosting
Adaboost
Boosting y Bagging para modelos de regresión
Ventajas e inconvenientes

Ejercicio 22: Ensemble models en R y Python
Ejercicio 23: Random Forest en Python
Ejercicio 24: Adaboost en R

Módulo 11: Desarrollo de Scorecards

Asignación de puntuación
Clasificación del Scorecard
- Scorecard WOE
- Scorecard Binario
- Scorecard Continuo
Reescalamiento del Scorecard
- Análisis del Factor y Offset
- Scorecard WOE
- Scorecard Binario
Técnicas de Reject Inference
- Cut-Off
- Parcelling
- Fuzzy Augmentation
Técnicas Avanzadas de punto de corte
Ejercicio 25: Scorecard WOE en Excel y R
Ejercicio 26: Reject Inference Fuzzy Augmentation en R
Ejercicio 27: Selección del Punto de Corte en Excel y R

Módulo 12: Validación del modelos

Verificación p-values en regresiones
R cuadrado, MSE, MAD
Diagnóstico de los residuos
Test de Bondad de Ajuste
- Deviance
- Bayesian Information Criterion (BIC)
- Akaike Information Criterion
Multicolinealidad Multivariante
Validación cruzada
Bootstrapping del error
Matriz de confusión caso binario
Matriz de confusión caso multinomial
Prueba de Estabilidad
Principales test de poder discriminante:
- KS
- Curva ROC
- Curva Lift
- Gini Index
- Cumulative Accuracy Profile
- Distancia de Kullback-Leibler
- Pietra Index
- Entropía condicional
- Valor de Información
- Tau de Kendall
- Brier Score
- Distancia de Mahalanobis
- Divergencia
- Hosmer Lemeshow
Intervalos de confianza
Jackknifing con test de poder discriminante
Bootstrapping con test de poder discriminante
Estadístico Kappa
K-Fold Cross Validation
Ejercicio 28: Test de Bondad de Ajuste Regresión líneal
Ejercicio 29: Test de Bondad de Ajuste Regresión Logística
Ejercicio 30: Estimación Gini, Valor de la Información, Brier Score, Curva Lift, CAP, ROC, Divergencia en Excel
Ejercicio 31: Bootstrapping de parámetros R
Ejercicio 32: Jackkinifng en R
Ejercicio 33: Bootstrapping de Gini/ROC en R
Ejercicio 34: K-Fold Cross Validation en R

Módulo 14: Behavior Score y Credit Score

Modelos predictivos en consumo
Tipología de scores:
- Response Scoring
- Income Score
- DTI Score
- Credit Scoring de Admisión
  - Score de Tarjetas de crédito
  - Score de Hipotecas
  - Score de consumo
  - Score de Automóvil
- Behavior Score
  - Behavior Score con variables macroeconómicas
  - Matrices de transición
  - Behavior Score con matrices de transición
  - Transaction Score
Matrices duales
CREDIT SCORING EN CONSUMO
Ejercicio 35: Regresión Logística en R
Ejercicio 36: Redes Neuronales: perceptron en R y Python
Ejercicio 37: Árboles de decisión CHAID en R
Ejercicio 38: Support vector machines en R
Ejercicio 39: Ensemble models Credit Scoring en Python
BEHAVIOR SCORE EN TARJETAS DE CRÉDITO
Ejercicio 40: Regresión Logística Panel Data en R
Ejercicio 41: Support vector machines en python
Ejercicio 42: Árboles de decisión C5.0 en R
Ejercicio 43: Random Forest en python
Ejercicio 44: Ensemble models Behavior Scoring en R

Módulo 15: Otros modelos de scoring

Response Scoring
Income Score
DTI Score
Credit Scoring de Admisión
- Score de Tarjetas de crédito
- Score de Hipotecas
- Score de consumo
- Score de Automóvil
Behavior Score
Response Score
Transaction Score
Score de Ingresos
Score de Abandono
Score de Fraude en Admisión
Score de Fraude en Seguimiento
Collection Score
Recovery Score
Revenue Score
Big Data Scoring
- Ventajas y criticas
Ejercicio 45 : Fraud Score con redes neuronales
Ejercicio 46: Score de Ingresos en R
Ejercicio 47: Collection Score en R
Ejercicio 48: Recovery Score Excel y R
Ejercicio 49: Debt To Income Score en R
Ejercicio 50 :Score de Abandono en R

Credit Scoring, Machine Learning y Validación en Python y R

​

AGENDA Credit Scoring, Machine Learning y Validación en Python y R

AGENDA
Credit Scoring, Machine Learning y Validación en Python y R