Khai phá dữ liệu

Một sinh viên hỏi: “Khai phá dữ liệu là gì? Nó khác thế nào với Quản trị cơ sở dữ liệu? Em muốn là người phân tích khai phá dữ liệu, em có thể học về lĩnh vực này ở đâu?”

Đáp: Khai phá dữ liệu có thể được định nghĩa là việc thăm dò các cơ sở dữ liệu rất lớn qua việc dùng những công cụ và qui trình chuyên dụng. Mục đích của khai phá dữ liệu là trích ra thông tin hữu dụng từ dữ liệu, và cung cấp thông tin đó cho người quản lí hay người ra quyết định để dùng trong trinh sát doanh nghiệp, hay dự báo v.v.

Khai phá dữ liệu là việc áp dụng các kĩ thuật phân tích thống kê để trích rút, truy lục và thăm dò dữ liệu thô rồi phân tích chúng thành thông tin hữu dụng dùng phần mềm máy tính cho xử lí nhanh hơn. Quản trị cơ sở dữ liệu là duy trì các bản ghi bằng sắp xếp, cập nhật cho nhiều kiểu dữ liệu cũng dùng phần mềm máy tính được biết tới như hệ quản lí cơ sở dữ liệu (DBMS).

Để học về khai phá dữ liệu, bạn cần có tri thức về miền doanh nghiệp, hiểu cơ sở dữ liệu và cách nó làm việc, có kĩ năng phân tích dữ liệu và một số kĩ thuật để lọc và làm sạch dữ liệu, đo chất lượng dữ liệu, và giải quyết với việc thiếu dữ liệu. Khai phá dữ liệu là môn học chuyên sâu được dạy chủ yếu trong bậc thạc sĩ về Quản lí hệ thông tin.

Có một số thuật toán và công cụ khai phá dữ liệu hiện đã tồn tại, mỗi thứ đều có ưu điểm và hỗ trợ nhưng học dùng công cụ là dễ dàng. Để là người phân tích dữ liệu hay nhà khoa học dữ liệu giỏi, bạn sẽ cần hiểu qui trình khai phá dữ liệu, các mô hình ước lượng của nó. Bạn phải biết cách so sánh và lựa chọn kĩ thuật nào là thích hợp cho điều bạn làm. Lời khuyên của tôi là thử nhiều kĩ thuật khác nhau nhất có thể được để cho bạn quen thuộc với tất cả chúng và học cách chuẩn bị dữ liệu cho phân tích, vì đó là nhiệm vụ tốn thời gian.

Tác phẩm, tác giả, nguồn

  • Tác phẩm: Quản lí hệ thông tin
  • Nguồn: Blog của giáo sư John Vu, Carnegie Mellon University
  • Wiki hóa: https://kipkis.com