Medallion Architecture

Medallion Architecture

por Marcos Aurelio Wozhiak Junior de Oliveira 24/07/2025 atualizado em 29/07/2025

Este projeto demonstra a aplicação prática da Medallion Architecture na AWS, com um guia completo para estruturar pipelines de dados em camadas Bronze, Silver e Gold. Ele organiza dados desde sua forma bruta (CSV/JSON em S3) até seu uso final em análises avançadas, passando por validações com AWS Glue, consultas com Amazon Athena e integração com Redshift e QuickSight para visualização. A estrutura modular facilita o entendimento e a implementação de boas práticas em data lakes, com um diagrama ilustrativo da arquitetura e exemplos prontos para uso em cada etapa do pipeline. Ideal para quem quer aprender arquitetura de dados moderna usando os serviços gerenciados da AWS.

🛠️ Tecnologias:

Python AWS SQL S3 Athena Glue Redshift

Medallion Architecture


Este projeto demonstra como implementar a arquitetura Medallion na AWS, dividida em três camadas (Bronze, Silver e Gold), utilizando serviços como S3, Glue, Athena e Redshift para criar um pipeline robusto de ingestão, transformação e análise de dados.

🎯 Objetivos


* [x] Armazenar dados brutos (CSV, JSON) de forma segura e escalável
* [x] Validar e transformar os dados para formatos otimizados (Parquet)
* [x] Enriquecer os dados para análises e dashboards
* [x] Utilizar serviços gerenciados da AWS para orquestração e consulta
* [x] Fornecer um ambiente acessível para análise exploratória e visualização

🛠️ Tecnologias Utilizadas


* Python
* SQL
* Docker
* AWS (S3, Glue, Athena, Redshift, QuickSight)

🧱 Estrutura do Projeto


``
medallion-architecture/

├── 01-bronze-raw/ # Dados brutos (CSV, JSON)
│ ├── cep_info.csv
│ ├── products.json
│ └── users.csv

├── 02-silver-validated/ # Dados limpos e validados (Parquet)
│ ├── cep_info.parquet
│ ├── products.parquet
│ └── users.parquet

├── 03-gold-enriched/ # Dados prontos para análise
│ └── query.sql

├── data-access/ # Scripts e notebooks de acesso aos dados
│ ├── db.py
│ └── data-view.ipynb

└── architecture-diagram.mmd # Diagrama da arquitetura
`

🚀 Como Executar


  • Clone o repositório:

  • `
    git clone https://github.com/aureliowozhiak/medallion-architecture.git
    cd medallion-architecture
    `

  • Instale as dependências (se houver requirements.txt):

  • `
    pip install -r requirements.txt
    ``

  • Execute os scripts conforme a camada:

  • * Bronze: Suba arquivos no S3
    * Silver: Rode os jobs no AWS Glue
    * Gold: Faça consultas no Athena
    * Acesso: Utilize Redshift ou visualize no QuickSight

    ☁️ Guia Rápido na AWS


    * Bronze:
    Armazene os dados brutos em buckets S3

    * Silver:
    Use AWS Glue para validar e transformar os dados (Parquet)

    * Gold:
    Faça queries com Athena diretamente nos dados prontos no S3

    * Data Access:
    Importe os dados no Amazon Redshift e conecte ao Amazon QuickSight para dashboards

    📸 Screenshots


    !Diagrama

    🔗 Links


    * 📂 Código no GitHub

    Gostou deste projeto?

    Conheça mais projetos de dados de Marcos Aurelio Wozhiak Junior de Oliveira ou explore outros portfólios de profissionais da DataEngineer.Help.

    Ver Mais Projetos de Dados de Marcos Aurelio Wozhiak Junior de Oliveira Explorar Outros Portfólios