AIDE Institute - Artificial Intelligence and Data Education

Fundamental Data Engineering

Thời gian và lịch học

Dự kiến: 03.2024
Thời lượng: Hơn 20 giờ học
Mỗi buổi học từ 1.5 - 2 giờ, mỗi tuần 2 buổi
Lịch học: Tối thứ 5 - Chiều chủ nhật
Hình thức: 100% online
Đặt lịch tư vấn

Tổng quan khoá học

Tìm hiểu và đăng ký khoá học "Fundamental Data Engineering" của Viện giáo dục AIDE - Làm chủ các kiến thức và kĩ năng cần thiết để bước đầu trở thành Kĩ sư Dữ liệu sau hơn 30 giờ học và tự học

Ai nên đăng ký khóa học này?

Người có dự định làm việc nhiều về mảng kỹ thuật (đòi hỏi kỹ năng lập trình tốt) để thiết kế các luồng dữ liệu, xây dựng các hệ thống dữ liệu, cơ sở dữ liệu update tự động, ... 
Yêu cầu tối thiểu: đã có kinh nghiệm lập trình cơ bản (python)
* liên hệ để được tư vấn cụ thể hơn

Lợi ích khi tham gia khóa học

  • Mentoring & hỗ trợ 1:1
  • Tự tin để học tiếp các chương trình nâng cao
  • Thời gian thực hành lên tới 70% thời lượng khóa học
  • Cung cấp tài liệu và chứng chỉ sau khóa học
  • Thư giới thiệu - Hỗ trợ review CV, mock-interview

Học phí

  • AIDE sẽ gửi thông tin học phí chi tiết qua email/zalo/facebook sau khi bạn điền vào form đăng ký

  • Đăng ký nhóm
    • Nhóm 2 người: giảm 5% mỗi học viên
    • Nhóm từ 3 người: giảm 10% mỗi học viên

  • Cựu học viên của AIDE: giảm 15%
  • Mức giảm tối đa cho mỗi học viên: 20%

Đạt được gì sau khóa học

Kiến thức: 

  • Phân biệt được các kiểu dữ liệu khác nhau trong thời đại Big Data
    • Structured
    • Unstructured
    • Semi-structured
  • Nắm được design thinking của data platform
    • ETL vs ELT
    • Stream vs Batch ingestion
    • Distributed storage
    • Distributed computing
    • Serving data
  • Lựa chọn lưu trữ dữ liệu qua các hệ thống đặc thù như document-based, column-based, key value-based, graph based.
  • Biết được ứng dụng lưu trữ của Data warehouse, Data lake, Data lakehouse.
  • Hiểu được sự chuyển đổi từ mô hình on-premise sang cloud computing.

Kĩ năng: 

  • Lập trình truy vấn dữ liệu với SQL.
  • Lập trình Python và Pandas.
  • Distributed computing với Apache Spark.
  • Xây dựng data pipeline với Dagster.
  • Lập trình Data Transformation với DBT.
  • Đóng gói ứng dụng bằng Docker.

NỘI DUNG CHI TIẾT KHÓA HỌC

Module Chi tiết
Introduction to Data Engineering
Giới thiệu tổng quan, các kỹ năng cần thiết cho DE.
Các công cụ tiên tiến xử lý dữ liệu (Modern data tech stack).
Data Engineering Toolbox
Hướng dẫn làm chủ các công nghệ xử lý và ứng dụng dữ liệu:
  • Operations: Docker
  • Orchestration: Dagster
  • Compute: Pandas, Apache Spark. DBT
  • Data: MinIO, PostgreSQL, MySQL, Trino
Data Platform
Tổng quan về xây dựng Data Platform
  • Data lineage
  • Data quality
  • Data catalog
Tổng quan về xây dựng Data Layers
  • Bronze > Silver > Gold
  • Landing > Staging > Production
  • Raw > Processed > Data Mart
Các chiến lược thu thập dữ liệu (Data ingestion strategy).
Xây dựng và quản lý Data pipeline (Data orchestration).
Data pipeline
Xây dựng Data Platform
Xây dựng Data Ingestion Strategy
Lập trình ELT với Dagster + DBT
Lập trình ETL với Dagster + Apache Spark
Big Data, Hadoop/Spark
Tổng quan về BigData
Tổng quan về Hadoop/Spark
Project cuối khóa
Buid end-to-end data pipeline: design, planning, implement, and demo:
  • Chọn data source: RDBMS, files .csv, .json, .xlx, public API
  • Chọn hướng tiếp cận ETL hay ELT
  • Chọn công nghệ cài đặt: Pandas, DBT, Apache Spark, Trino, etc