Churn Telecom Prediction

por Vinicius Kawanishi Almeida • 23/01/2026 • atualizado em 04/05/2026

Este projeto tem como objetivo desenvolver um modelo de Machine Learning capaz de prever a probabilidade de um cliente cancelar o serviço (churn) em uma empresa de telecomunicações. Além da modelagem, foi realizada uma análise exploratória detalhada (EDA) para compreender os fatores que mais influenciam a evasão de clientes e gerar insights estratégicos para retenção.

🛠️ Tecnologias:

Python NumPy Pandas Matplotlib Seaborn Scikit-learn Imbalanced-learn XGBoost Git

Ver Projeto Live Código no GitHub Ver Portfólio Completo

Churn Prediction em Telecomunicações

Este projeto tem como objetivo desenvolver um modelo de Machine Learning capaz de prever a probabilidade de um cliente cancelar o serviço (churn) em uma empresa de telecomunicações.
Além da modelagem preditiva, foi realizada uma análise exploratória detalhada (EDA) para compreender os principais fatores associados à evasão de clientes e gerar insights estratégicos voltados à retenção.

Tecnologias Utilizadas

O projeto foi desenvolvido em Python, com foco em análise de dados, visualização e modelagem preditiva.

Principais Bibliotecas

- NumPy e Pandas: manipulação, limpeza e análise dos dados
- Matplotlib e Seaborn: análise exploratória dos dados
- Scikit-learn: construção de pipelines, validação e métricas
- Imbalanced-learn: balanceamento de classes com a técnica ADASYN
- XGBoost: modelo de aprendizado de gradiente para previsão de churn

Ambiente e Ferramentas

- Jupyter Notebook
- Git para controle de versão
- GitHub para versionamento e apresentação do projeto

Problema de Negócio

Empresas de telecomunicações enfrentam altos índices de cancelamento de clientes, impactando diretamente a receita e aumentando os custos operacionais. O desafio deste projeto foi identificar padrões de comportamento que indiquem risco de churn e construir um modelo capaz de prever, com antecedência, quais clientes possuem maior probabilidade de cancelar o serviço.

Objetivos

- Identificar padrões e características de clientes com maior propensão ao churn
- Desenvolver um modelo de Machine Learning para prever o cancelamento de clientes
- Gerar insights estratégicos para apoiar ações de retenção

Benefícios para o Negócio

- Redução da taxa de cancelamentos
- Otimização das estratégias de retenção
- Melhor direcionamento de ações de marketing
- Aumento da satisfação e fidelização dos clientes

Principais Insights da Análise Exploratória

A análise dos dados mostrou que aproximadamente 14,5% dos clientes da empresa cancelaram o serviço, evidenciando a relevância do problema de churn.

Clientes com alto tempo de uso em chamadas diurnas apresentaram maior propensão ao cancelamento, sugerindo possível insatisfação com custos ou qualidade do serviço.

Observou-se também que clientes que aderem ao plano internacional possuem maior probabilidade de churn, indicando a necessidade de revisão desse serviço em termos de valor percebido e qualidade.

Outro fator crítico foi o número de chamadas ao serviço de atendimento. Até duas chamadas, a taxa de churn permanece relativamente estável. A partir da terceira reclamação, ocorre um aumento significativo na evasão, tornando esse um ponto-chave para ações preventivas.

Treinamento e Modelagem

As variáveis do dataset foram separadas em numéricas e categóricas. Os dados foram divididos em conjuntos de treino e teste antes de qualquer transformação, evitando vazamento de dados (data leakage).

As variáveis categóricas foram convertidas para valores numéricos utilizando LabelEncoder. O processo de modelagem foi estruturado por meio de uma pipeline, incluindo StandardScaler para padronização das variáveis.

Devido ao desbalanceamento da variável alvo, foi aplicada a técnica ADASYN para geração de amostras sintéticas da classe minoritária. A otimização dos hiperparâmetros foi realizada com GridSearchCV.

Resultados do Modelo

O modelo com melhor desempenho foi o XGBoost. Apesar da acurácia ter alcançado 0,96, essa métrica foi analisada com cautela devido ao desbalanceamento dos dados.
As métricas mais relevantes foram:
- F1-Score: 0,86
- Recall da classe churn: aproximadamente 0,80
- AUC-ROC: 0,93
Esses resultados indicam que o modelo possui excelente capacidade de identificar clientes com alto risco de cancelamento.

Conclusão

O modelo desenvolvido atingiu plenamente os objetivos do projeto, apresentando alto desempenho na previsão de churn e gerando insights estratégicos relevantes para o negócio.
A utilização do XGBoost, aliada ao balanceamento de classes e à otimização de hiperparâmetros, resultou em um modelo robusto e confiável, demonstrando a aplicação prática de Machine Learning na resolução de problemas reais de negócio.

Gostou deste projeto?

Conheça mais projetos de dados de Vinicius Kawanishi Almeida ou explore outros portfólios de profissionais da DataEngineer.Help.

Ver Mais Projetos de Dados de Vinicius Kawanishi Almeida Explorar Outros Portfólios