Skip to content

dinarrahman30/London_TfL

Folders and files

NameName
Last commit message
Last commit date

Latest commit

Β 

History

8 Commits
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 

Repository files navigation

🚲 London Bike Sharing Data Pipeline (End-to-End Engineering)

πŸ“‹ Project Overview

Project ini adalah implementasi End-to-End Data Engineering Pipeline untuk menganalisis ketersediaan dan sebaran stasiun sepeda di London (Transport for London). Tujuan utamanya adalah membangun sistem otomatis yang menampung data mentah, membersihkannya, dan menyajikannya dalam bentuk Dashboard Geospasial interaktif.

Project ini mensimulasikan lingkungan kerja Modern Data Stack menggunakan Mage AI sebagai orkestrator dan Google BigQuery sebagai Data Warehouse.

πŸ› οΈ Tech Stack

  • Orchestration: Mage AI (Modern replacement for Airflow)
  • Containerization: Podman (Daemonless container engine)
  • Data Warehouse: Google BigQuery
  • Language: Python (Pandas) & SQL
  • Cloud Platform: Google Cloud Platform (GCP) - Sandbox Environment
  • Visualization: Looker Studio
  • Infrastructure: Infrastructure as Code (via Docker/Podman Compose)

πŸ”„ Data Pipeline Architecture

  • Extract: Mengambil data real-time/batch dari API London Transport menggunakan Python.
  • Transform (Python): Normalisasi data JSON ke format tabular (Pandas DataFrame) dan validasi tipe data.
  • Load: Upload data ke Google BigQuery menggunakan autentikasi Service Account (IAM).
  • Modeling (SQL): Transformasi lanjutan di dalam Data Warehouse:
    • Membersihkan null values.
    • Mengonversi kolom Latitude & Longitude terpisah menjadi satu kolom location (ST_GEOGPOINT) untuk keperluan visualisasi peta.
  • Visualize: Menghubungkan BigQuery ke Looker Studio untuk memantau metrik stasiun terpadat dan sebaran lokasi.

πŸ’‘ Key Challenges & Solutions

  • GCP Authentication: Mengelola keamanan akses menggunakan Service Account dengan prinsip Least Privilege (BigQuery Admin role) untuk menghubungkan environment lokal (Podman) dengan Cloud.
  • Geospatial Data Handling: Mengatasi limitasi visualisasi standar dengan melakukan feature engineering pada level SQL (menggabungkan Lat/Lon menjadi GeoPoint).
  • Cost Optimization: Menggunakan GCP Sandbox Mode untuk membangun infrastruktur data tanpa biaya (Zero-cost engineering).
  • Link Looker Studio: https://lookerstudio.google.com/reporting/d05ab512-4132-4da3-87ec-b16dcf8048db

Releases

No releases published

Packages

 
 
 

Contributors

Languages