×

EDA Là Gì? Kỹ Thuật Phân Tích Chủ Yếu Được Dùng Trong EDA

Ngày đăng: 13/06/2024 | No Comments

Ngày cập nhật: 27/06/2024

eda-la-gi 1

Trong kỷ nguyên số ngày nay, dữ liệu đóng vai trò quan trọng trong mọi lĩnh vực, từ khoa học, công nghệ đến kinh doanh và đời sống. Tuy nhiên, để biến dữ liệu thành những thông tin hữu ích và có giá trị, ta cần áp dụng các phương pháp phân tích dữ liệu hiệu quả. Một trong những kỹ thuật quan trọng nhất trong lĩnh vực này chính là DA Dữ Liệu (EDA – Exploratory Data Analysis). Vậy eda là gì? Hãy cùng Glints trả lời những thắc mắc này nhé!

EDA là gì?

EDA là gì? Phân tích khám phá dữ liệu (EDA) là quá trình khai phá và mô tả dữ liệu thông qua các phương pháp thống kê và trực quan, nhằm tập trung vào các khía cạnh quan trọng của dữ liệu để chuẩn bị cho các giai đoạn phân tích tiếp theo.

Quá trình này bao gồm: Khám phá tập dữ liệu từ nhiều góc độ khác nhau, mô tả và tổng hợp nó mà không áp đặt bất kỳ giả định nào về nội dung của dữ liệu. EDA là một bước quan trọng để chuẩn bị cho các mô hình thống kê hoặc học máy sau này.

eda-exploratory-data-analysis
EDA (Exploratory Data Analysis)

Đọc thêm: Top 7 Công Cụ Phân Tích Dữ Liệu Trong Năm 2023 [Forbes bình chọn]

Mục đích dùng EDA trong các dự án

Các mục đích của việc sử dụng EDA trong các dự án phân tích dữ liệu bao gồm:

  • Phân tích cấu trúc dữ liệu: EDA giúp phân tích và xác định cấu trúc dữ liệu như số lượng, loại dữ liệu, các trường dữ liệu và mối liên hệ giữa chúng. Bằng cách hiểu rõ cấu trúc dữ liệu này, những nhà phân tích dữ liệu có thể tìm thấy mối quan hệ giữa các dữ liệu trong tập dữ liệu.
  • Điều chỉnh và xử lý dữ liệu: EDA giải quyết vấn đề về dữ liệu thiếu, lỗi và ngoại lệ. Điều này giúp nhà phân tích dữ liệu điều chỉnh kế hoạch hành động kịp thời để tránh ảnh hưởng nghiêm trọng đến dự án.
  • Phân tích mối tương quan giữa biến số: EDA có khả năng phát hiện mối liên hệ và tương tác giữa các biến, từ đó tạo ra một khung thông tin rõ ràng để xây dựng quy trình phân tích toàn diện.
  • Xây dựng cơ sở dữ liệu quan hệ: EDA giúp phát triển các mối quan hệ giữa các đối tượng dữ liệu quan trọng, giúp cấu trúc hóa dữ liệu theo một sơ đồ nhất định, tiết kiệm thời gian xử lý dữ liệu thừa và giảm thiểu sai sót trong quá trình phân tích.
  • Chuẩn bị cho các bước phân tích tiếp theo: Áp dụng EDA giúp loại bỏ dữ liệu không cần thiết, xử lý dữ liệu thiếu và chuẩn hóa dữ liệu. Đây là bước quan trọng để chuẩn bị cho các phương pháp phân tích tiếp theo, như các thuật toán học máy.

Các kỹ thuật phân tích chủ yếu được dùng trong EDA

Các nhà phân tích dữ liệu thường áp dụng nhiều loại kỹ thuật trong EDA, được phân thành ba nhóm chính gồm: Phân tích đơn biến, phân tích hai biến và phân tích đa biến.

Phân tích đơn biến

Phân tích đơn biến nhằm khám phá phân bổ của các giá trị trong một biến duy nhất. Kỹ thuật này không giới hạn bởi loại dữ liệu cụ thể mà tập trung vào mục đích sử dụng và tính chất riêng của dữ liệu. Để thực hiện phân tích này, các Data Analyst liệu sử dụng các kỹ thuật phù hợp với loại biến đã đề cập. Các dạng biểu đồ thường được áp dụng trong phân tích đơn biến bao gồm:

  • Biểu đồ phân phối (Histogram): Hiển thị tần suất của từng giá trị hoặc nhóm giá trị trong dữ liệu số, giúp xác định đỉnh, đuôi và các thông số thống kê liên quan.
  • Biểu đồ hộp (Boxplot): Cung cấp các thông tin như phần tối thiểu, tối đa, giá trị trung vị,… Boxplot cũng được dùng để phát hiện dữ liệu ngoại lệ.
  • Biểu đồ cột (Bar Chart): Thường là biểu đồ thanh tần suất, thích hợp để so sánh giá trị của các biến rời rạc và phân tích tần suất của các phân loại khác nhau.
  • Biểu đồ tròn (Pie Chart): Truyền tải thông tin tương tự biểu đồ cột, nhưng khác biệt ở cách trình bày, với mỗi phần tròn biểu thị tỷ lệ của từng danh mục trong dữ liệu.

Việc sử dụng các biểu đồ này giúp nhà phân tích dữ liệu có cái nhìn rõ ràng và chi tiết về phân bố và tính chất của dữ liệu, từ đó chuẩn bị cho các bước phân tích và xử lý dữ liệu tiếp theo một cách hiệu quả.

Phân tích hai biến

Phân tích hai biến là phương pháp khám phá mối quan hệ giữa hai tập dữ liệu khác nhau, để xác định mức độ và hướng của sự tương quan giữa chúng. Kỹ thuật này giúp nhà phân tích dữ liệu hiểu rõ hơn về cách kết nối giữa hai biến và phân tích xu hướng trong dữ liệu. Các loại biểu đồ thường được sử dụng cho phân tích hai biến bao gồm:

  • Biểu đồ phân tán (Scatterplots): Biểu đồ phân tán thể hiện mối quan hệ giữa hai biến bằng cách trình bày các điểm dữ liệu trên một không gian hai chiều, trong đó trục X và trục Y đại diện cho hai biến khác nhau.
  • Biểu đồ tương quan (Correlation): Hệ số tương quan là một phép đo đánh giá mức độ mạnh yếu và hướng của mối tương quan giữa hai biến. Tương quan dương cho thấy khi một biến tăng, biến kia cũng tăng và ngược lại. Tương quan âm cho thấy mối quan hệ nghịch đảo giữa hai biến.
  • Biểu đồ phân tích hồi quy (Regression): Trên biểu đồ hồi quy, trục X biểu thị biến độc lập và trục Y biểu thị biến phụ thuộc. Đường hồi quy được sử dụng để ước tính mối quan hệ tuyến tính giữa hai biến.

Các kỹ thuật này cung cấp cho nhà phân tích dữ liệu cái nhìn sâu sắc và cụ thể về mối liên hệ giữa các biến, từ đó họ có thể rút ra những kết luận quan trọng và đưa ra các quyết định hợp lý trong phân tích dữ liệu.

eda-phan-tich-kham-pha-du-lieu
Kỹ thuật phân tích dùng trong EDA

Đọc thêm: Không Thể Bỏ Qua 11 Kỹ Năng Phân Tích Dữ Liệu Mà Một DA Cần Có

Phân tích đa biến

Phân tích đa biến là một kỹ thuật phân tích dữ liệu ở mức độ phức tạp, thường được áp dụng khi có nhiều hơn hai biến trong tập dữ liệu. Kỹ thuật này giúp giảm thiểu và đơn giản hóa dữ liệu mà không làm mất đi bất kỳ chi tiết quan trọng nào.

Đối với phương pháp này, điều quan trọng nhất là phải hiểu rõ mối quan hệ giữa các biến và làm thế nào các biến này có thể dự đoán hành vi của nhau dựa trên quan sát.

Phân tích đa biến thường sử dụng các dạng biểu đồ như sau:

  • Biểu đồ phân phối đa biến (Multivariate distribution plot): Biểu đồ này cho phép quan sát phân phối đồng thời của nhiều biến, thường được hiển thị dưới dạng 2D hoặc 3D để trực quan hóa mật độ phân phối và mối liên hệ giữa các biến.
  • Biểu đồ phân tán ma trận (Scatterplot matrix): Biểu đồ này thể hiện mối quan hệ và phân phối của từng cặp biến trong một ma trận, giúp nhận diện các mẫu và tương quan giữa các biến một cách tổng thể.
  • Biểu đồ hộp đa biến (Boxplot matrix): Biểu đồ này thể hiện sự phân bố của các biến đồng thời, cho phép so sánh và phát hiện những điểm khác biệt quan trọng giữa các nhóm dữ liệu.

Các loại biểu đồ này cung cấp cho nhà phân tích dữ liệu cái nhìn tổng quan và chi tiết về mối quan hệ giữa các biến, giúp họ đưa ra các phân tích và nhận định có cơ sở để hiểu sâu hơn về dữ liệu và đưa ra các quyết định phù hợp.

Quy trình các bước thực hiện EDA

Quy trình thực hiện EDA bao gồm các bước sau đây, mỗi bước đóng vai trò quan trọng trong việc chuẩn bị và phân tích dữ liệu:

Bước 1 – Thu thập dữ liệu

Thu thập dữ liệu từ các nguồn khác nhau và lưu trữ chúng một cách có tổ chức để sẵn sàng cho các bước tiếp theo trong quy trình.

Bước 2 – Kiểm tra dữ liệu

Tiến hành kiểm tra sơ bộ về tệp dữ liệu để đánh giá số lượng, kiểu dữ liệu, thuộc tính và các đặc điểm khác. Quá trình này giúp nhà phân tích dữ liệu hiểu rõ hơn về dữ liệu và lên kế hoạch cho việc xử lý dữ liệu.

Bước 3 – Xử lý dữ liệu: Bao gồm các công việc như bổ sung dữ liệu thiếu, loại bỏ các giá trị trùng lặp, xử lý các dữ liệu ngoại lệ và chuyển đổi định dạng dữ liệu để chuẩn bị cho các phân tích tiếp theo.

Bước 4: Trực quan dữ liệu

Sử dụng các kỹ thuật phân tích dữ liệu kết hợp với biểu đồ để khám phá các mẫu, xu hướng và mối quan hệ giữa các biến trong dữ liệu.

Bước 5: Đúc kết

Dựa trên các phân tích đã thực hiện, đưa ra kết luận và ghi nhận các mẫu quan trọng, xu hướng và các khía cạnh khác của dữ liệu đã được khám phá.

Bước 6: Báo cáo kết quả

Sử dụng các biểu đồ và mô tả để báo cáo kết quả của quá trình EDA một cách chi tiết và rõ ràng, giúp người đọc hiểu được những thông tin quan trọng từ dữ liệu đã phân tích.

Quy trình EDA không có một chuẩn chung cụ thể mà thay vào đó là một sự kết hợp linh hoạt giữa các bước này để đáp ứng nhu cầu phân tích dữ liệu cụ thể của từng dự án.

Sự hiểu biết và áp dụng linh hoạt của quy trình này được các chuyên gia phân tích dữ liệu và các doanh nghiệp hàng đầu sử dụng để đạt được các mục tiêu phân tích dữ liệu hiệu quả.

Lời kết

Phân tích khám phá dữ liệu (EDA) đóng vai trò nền tảng trong quy trình phân tích dữ liệu, cung cấp cho các nhà phân tích và nhà khoa học dữ liệu những hiểu biết thiết yếu về tập dữ liệu đang được nghiên cứu. Hy vọng những chia sẻ trên về chủ đề “eda là gì ” sẽ giúp nạn hiểu rõ hơn EDA.

Bài viết có hữu ích đối với bạn?

Đánh giá trung bình 0 / 5. Lượt đánh giá: 0

Chưa có đánh giá nào! Hãy là người đầu tiên đánh giá bài viết.

Chúng tôi rất buồn khi bài viết không hữu ích với bạn

Hãy giúp chúng tôi cải thiện bài viết này!

Làm sao để chúng tôi cải thiện bài viết này?

[jetpack-related-posts]

Leave a Reply

Your email address will not be published. Required fields are marked *

Khám phá ngay 10k+ công việc mới tại Glints
Nền tảng tuyển dụng hàng đầu Đông Nam Á

X