Data Analysis Projects
Giới thiệu về Phân tích dữ liệu
Xin chào các bạn!
Phân tích dữ liệu là một quá trình kiểm tra, làm sạch, chuyển đổi và mô hình hóa dữ liệu với mục tiêu khám phá thông tin hữu ích, thông báo kết luận và hỗ trợ ra quyết định. Phân tích dữ liệu có nhiều khía cạnh và cách tiếp cận, bao gồm các kỹ thuật đa dạng dưới nhiều tên khác nhau và được sử dụng trong các lĩnh vực kinh doanh, khoa học và khoa học xã hội khác nhau. Trong thế giới kinh doanh ngày nay, phân tích dữ liệu đóng vai trò giúp đưa ra quyết định khoa học hơn và giúp doanh nghiệp hoạt động hiệu quả hơn. Bên cạnh đó, dữ liệu là một trong những yếu tố quan trọng trong kinh doanh vì dữ liệu giúp chúng ta hiểu các vấn đề mà tổ chức đang gặp phải và việc sử dụng dữ liệu hiệu quả sẽ giúp doanh nghiệp cải thiện kết quả kinh doanh, đưa ra chiến lược thị trường tốt hơn, giảm chi phí, giúp doanh nghiệp ra quyết định nhanh và chính xác hơn, …
Chuyên viên phân tích dữ liệu (Data Analyst) là người thực hiện các phân tích sâu dữ liệu (deep dive analytics) ở dạng đồ thị, biểu đồ, sơ đồ, bảng biểu và báo cáo; sau đó sử dụng các dữ liệu đó để xác định xu hướng và tạo mô hình dự đoán những gì có thể xảy ra trong tương lai.
Bạn hãy tưởng tượng, để trở thành một cây cổ thụ thì điều cần thiết nhất chính là một bộ rễ chắc chắn bám sâu vào lòng đất. Chính vì điều đó, chứng chỉ này được thiết kế nhằm giúp bạn có một bộ rễ kiến thức, đây sẽ là nền tảng để bạn dần cao lớn hơn trong tương lai. Mục tiêu của môn học giúp cho học viên có cái nhìn tổng quát về nghề phân tích dữ liệu và định hướng cho con đường phát triển nghề nghiệp của mình. Cũng như cung cấp rất nhiều bài tập thực hành thực tế giúp bạn có cái nhìn từ tổng quan đến chi tiết vào những dự án có thật . Chương trình trang bị cho các bạn kiến thức cần thiết để trở thành một chuyên viên phân tích dữ liệu với các dự án như sau:
- Thống kê thời tiết theo ngày
- Tính toán nguyên liệu làm bánh
- Thống kê mô tả
- Kiểm định độ tin cậy của thông tin
- Truy vấn dữ liệu nhân sự
- Thiết kế cơ sở dữ liệu báo điện tử
- Thiết kế và chuẩn hóa cơ sở dữ liệu bán hàng
- Ứng dụng tư duy phân tích dữ liệu trong bài toán bán hàng Online
- Xây dựng Dashboard
- Ứng dụng Linear regression trong bài toán kinh doanh
- Xây dựng báo cáo về tình hình Covid tại Việt Nam
- Xây dựng báo cáo tự động cập nhật về tình hình Covid trên thế giới
- Phân tích kinh doanh sử sụng SQL
- Xây dựng Data Warehouse
- Ứng dụng học máy trong phân tích dữ liệu
- Phân tích dữ liệu Covid-19
- Phân nhóm khách hàng
Chúng tôi hy vọng bạn sẽ hoàn thành xuất sắc khóa học để có thể thành thạo và tự tin trong lĩnh vực Data Analysis!
Chúc các bạn học tốt!
MỤC TIÊU MÔN HỌC
Sau khi học xong môn này, học viên sẽ đạt được các chuẩn kiến thức, kỹ năng đầu ra như sau:
- Nắm bắt được các thao tác và các hàm cơ bản trong Excel.
- Biết được một số thủ thuật phổ biến hay sử dụng trong Excel.
- Biết được một số dạng biểu đồ cơ bản và cách vẽ biểu đồ.
- Biết cách thao tác và tạo báo cáo với Pivot Table.
- Bức tranh tổng quan về thống kê và xác suất, vai trò của thống kê và xác suất trong cuộc sống hiện đại, ý nghĩa của thống kê suy diễn và thống kê mô tả.
- Các đặc trưng của dữ liệu theo phương pháp thu thập dữ liệu, các loại dữ liệu và các thông số thống kê đặc trưng của dữ liệu.
- Ý nghĩa của hệ số tương quan giữa 2 biến dữ liệu và các phương pháp giải bài toán hồi quy tuyến tính đơn giản với 2 biến.
- Các khái niệm cơ bản trong xác suất: Biến cố, ngẫu nhiên, quy tắc cộng/nhân, xung khắc/độc lập và định lý Bayes.
- Hàm phân phối tích lũy và các hàm phân phối xác suất trong thống kê cho biến rời rạc và biến liên tục: Phân phối chuẩn, phân phối nhị thức và các phân phối nâng cao khác.
- Phân phối mẫu, ước lượng điểm và khoảng tin cậy cho giá trị trung bình, xác suất và phương sai của quần thể.
- Các khái niệm cơ bản trong kiểm định giả thuyết: Giả thuyết không, giả thuyết thay thế, các dạng lỗi, quy trình của bài toán kiểm định giả thuyết cho kiểm định xác suất và kiểm định giá trị trung bình.
- Kiểm định Chi-square cho biến phân loại và các phương pháp bổ sung (Cramér’s V, Fisher Exact).
- Kiểm định sự tồn tại của tương quan tuyến tính và cách sử dụng đường hồi quy.
- Hiểu về các khái niệm cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu và ngôn ngữ truy vấn.
- Vận dụng thành thạo ngôn ngữ định nghĩa dữ liệu (DDL) và ngôn ngữ thao tác dữ liệu (DML).
- Biết cách xây dựng mô hình thực thể quan hệ và mô hình quan hệ.
- Hiểu chuẩn hóa dữ liệu và áp dụng các kỹ thuật chuẩn hóa trong thiết kế cơ sở dữ liệu.
- Hiểu và vận dụng được View, Cursor, Stored Procedure, Function, Trigger, Index.
- Nắm được các nguyên tắc thiết kế cơ sở dữ liệu.
- Nắm được các khái niệm cơ bản về công việc Phân tích dữ liệu và hệ sinh thái khoa học dữ liệu.
- Hiểu rõ vai trò của Phân tích dữ liệu trong các bài toán kinh doanh.
- Nắm được cách thức kết nối và giao tiếp với các bên liên quan trong một dự án liên quan đến Phân tích dữ liệu.
- Sử dụng được Excel để xử lý bài toán phân tích dữ liệu cơ bản từ đầu đến cuối.
- Hiểu về lợi ích của Business Intelligence đối với doanh nghiệp.
- Cài đặt và làm quen với giao diện của Power BI Desktop.
- Xử lý, chuyển đổi và tích hợp được dữ liệu thô vào Power BI.
- Xây dựng mô hình dữ liệu quan hệ với các bảng dữ liệu và quan hệ dữ liệu.
- Sử dụng DAX để tính toán, trích xuất và phân tích dữ liệu.
- Xây dựng được các báo cáo Power BI đẹp mắt, có thể tương tác với người dùng.
- Thiết kế, xây dựng và triển khai được một quy trình BI hoàn chỉnh trên Power BI từ dữ liệu thô với các báo cáo và dashboard chất lượng.
- Đăng nhập và làm quen với Power BI Service.
- Biết cách viết truy vấn phân tích một số bài toán về lưu lượng, hiệu suất, sản phẩm của website trong MySQL.
- Biết sử dụng một số hàm truy vấn nâng cao trong SQL Server.
- Biết cách viết và tối ưu được các truy vấn từ đơn giản đến phức tạp trên SQL.
- Thiết kế và xây dựng được một Data warehouse hoàn chỉnh.
- Hiểu rõ về quy trình ETL trong cơ sở dữ liệu cũng như các thao tác chi tiết cho từng bước.
- Sử dụng Python để làm việc với các dữ liệu dạng text file, dữ liệu web
- Sử dụng numpy khi thao tác với mảng 1 chiều và 2 chiều
- Sử dụng thành thạo Pandas cho các tác vụ làm sạch, biến đổi, xử lý và phân tích dữ liệu
- Biết viết regular expression để làm các querry từ đơn giản đến phức tạp với dữ liệu text
- Sử dụng được Python để trực quan hóa dữ liệu thông qua các thư viện từ cơ bản đến nâng cao
- Làm quen với một số bài toán mô hình hóa dữ liệu cơ bản như hồi quy tuyến tính, hồi quy logistic, cây quyết định k-Means
TRẢI NGHIỆM HỌC TẬP
Để bắt đầu, các bạn nên dành một vài phút khám phá môn học và cấu trúc chung. Môn học sẽ bao gồm 10 dự án. Các bạn sẽ dựa vào link các MOOC trên khoá và phần hướng dẫn hoàn thành dự án để làm các bài tập lớn (Project). Việc làm các dự án lớn sẽ giúp các bạn phát huy được khả năng và có nhiều kinh nghiệm làm việc từ các bài toán thực tế. Để việc học tập được hiệu quả, hãy luôn trau dồi kiến thức, không ngừng học hỏi, nghiên cứu và lập cho mình một kế hoạch học tập hợp lý để hoàn thành khóa học một cách xuất sắc.
Trong thời gian học, việc phân bổ tuần học là rất quan trọng. Nếu các bạn có bất cứ câu hỏi nào hãy kết nối với Mentor để được giải đáp.
CẤU TRÚC MÔN HỌC
- Assignment 1: Thống kê thời tiết theo ngày
- Assignment 2: Tính toán nguyên liệu làm bánh
- Assignment 3: Thống kê mô tả
- Assignment 4: Kiểm định độ tin cậy của thông tin
- Assignment 5: Truy vấn dữ liệu nhân sự
- Assignment 6: Thiết kế cơ sở dữ liệu báo điện tử
- Assignment 7: Thiết kế và chuẩn hóa cơ sở dữ liệu bán hàng
- Assignment 8: Ứng dụng tư duy phân tích dữ liệu trong bài toán bán hàng Online
- Assignment 9: Xây dựng Dashboard
- Assignment 10: Ứng dụng Linear regression trong bài toán kinh doanh
- Assignment 11: Xây dựng báo cáo về tình hình Covid tại Việt Nam
- Assignment 12: Xây dựng báo cáo tự động cập nhật về tình hình Covid trên thế giới
- Assignment 13: Phân tích kinh doanh sử sụng SQL
- Assignment 14: Xây dựng Data Warehouse
- Assignment 15: Ứng dụng học máy trong phân tích dữ liệu
- Assignment 16: Phân tích dữ liệu Covid-19
- Assignment 17: Thiết kế và phát triển các tình huống kiểm thử
CHUYÊN GIA THIẾT KẾ VÀ PHẢN BIỆN MÔN HỌC
THIẾT KẾ MÔN HỌC: Th.S Nguyễn Thế Chinh
- Thạc sĩ tại Viện công nghệ Hoàng Gia, Thụy Điển
- Chuyên viên nghiên cứu Machine Learning tại Coderschool
PHẢN BIỆN MÔN HỌC: Th.S Nguyễn Danh Tú
- Thạc sĩ Toán - Tin tại ĐH Bách Khoa Hà Nội
- CEO Topica Native Product, Topica Edtech Group
NGUỒN HỌC LIỆU
Trong thời đại hiện nay, mỗi môn học đều có nhiều nguồn tài liệu liên quan kể cả sách in và online, FUNiX Way không quy định một nguồn học liệu cụ thể mà khuyến cáo để học viên chọn được nguồn phù hợp nhất cho mình. Trong quá trình học từ nhiều nguồn khác nhau theo lựa chọn cá nhân đó, khi sinh viên phát sinh câu hỏi thì sẽ được kết nối nhanh nhất với mentor để được giải đáp. Toàn bộ phần đánh giá bao gồm các câu hỏi trắc nghiệm, bài tập, dự án và thi vấn đáp do FUNiX thiết kế, xây dựng và thực hiện.
Các môn học của FUNiX không quy định bắt buộc tài liệu học tập, sinh viên có thể chủ động tìm và học từ bất kỳ nguồn nào phù hợp, kể cả sách in hay nguồn học liệu online (MOOC) hay các website. Việc sử dụng các nguồn đó do học viên chịu trách nhiệm và đảm bảo tuân thủ các chính sách của chủ sở hữu nguồn, trừ trường hợp họ có sự hợp tác chính thức với FUNiX. Nếu cần hỗ trợ, học viên có thể liên hệ phòng đào tạo FUNiX để được hướng dẫn.
Dưới đây là một số nguồn học liệu của môn học mà học viên có thể tham khảo sử dụng. Việc liệt kê nguồn dưới đây không nhất thiết hàm ý rằng FUNiX có sự hợp tác chính thức với chủ sở hữu của nguồn: Coursera, tutorialspoint, edX Training, or Udemy.
KÊNH PHẢN HỒI
FUNiX sẵn sàng đón nhận và trao đổi về mọi ý kiến góp ý, phản hồi liên quan đến học liệu qua email [email protected]