Dữ liệu lớn và khai phá dữ liệu

Một sinh viên viết cho tôi: “Với em dường như Big Data là cái tên mới cho Khai phá dữ liệu, chỉ xử lí nhiều dữ liệu. Em có đúng không? Khác biệt là gì giữa Big Data và khai phá dữ liệu? Xin thầy giải thích.”

Đáp: Có khác biệt giữa dữ liệu lớn và khai phá dữ liệu. Nhiều người tin khai phá khối lượng dữ liệu lớn là Big Data và điều đó là KHÔNG đúng. Chúng ta hãy bắt đầu với định nghĩa đơn giản về Khai phá dữ liệu và Dữ liệu lớn.

Khai phá dữ liệu là quá trình phân tích dữ liệu để nhận diện mối tương quan hay hình mẫu trong nhiều kiểu dữ liệu ĐÃ ĐƯỢC LƯU trong cơ sở dữ liệu rồi tóm tắt chúng thành thông tin hữu dụng. Chẳng hạn, người chủ nhìn vào kinh doanh của công ti mình; người đó có thể thấy thu nhập, chi phí và lợi nhuận. Nhưng với khai phá dữ liệu, người đó thấy nhiều hơn. Người đó biết trong hàng nghìn sản phẩm mà người đó bán, sản phẩm nào là bán chạy nhất. Người đó cũng biết khách hàng nào muốn mua, dựa trên hình mẫu của họ về mua sắm. Dựa trên báo cáo phân tích khai phá dữ liệu, người đó biết rằng nếu người đó giảm giá xuống 5% người đó có thể làm tăng số bán lên 45% và có 25% lợi nhuận thêm hơn so với trước. Về căn bản khai phá dữ liệu cho phép người chủ dùng thông tin hiện có để làm lộ ra xu hướng phụ thêm mà người đó có thể có ưu thế.

Ngày nay Khai phá dữ liệu được dùng rộng rãi trong các công ti bán lẻ, tài chính, truyền thông và tiếp thị. Nó cho phép họ xác định mối tương quan giữa các yếu tố “nội bộ” như giá, sản phẩm, chi phí với các yếu tố “bên ngoài” như khách hàng, cạnh tranh và xu hướng kinh tế. Dựa trên thông tin phụ này, các công ti có thể xác định tác động lên số bán của họ, thói quen mua hàng của khách hàng, và lợi nhuận công ti. Với khai phá dữ liệu, người bán lẻ có thể dùng bản ghi số bán của việc mua của khách hàng để gửi quảng cáo khuyến mại dựa trên lịch sử mua bán cá nhân. Chẳng hạn, tôi bao giờ cũng mua sách tại Amazon.com cho nên hàng tuần công ti đều gửi cho tôi một danh sách các sách mới, phần lớn là sách máy tính để tôi mua. Họ không bao giờ gửi danh sách các sách lãng mạn, sách tài chính hay sách kiến trúc bởi vì họ biết rằng tôi thường mua sách kĩ thuật. Phần mềm khai phá dữ liệu của họ đã biết thói quen mua sách của tôi.

Tuy nhiên, với Khai phá dữ liệu mọi dữ liệu phải CÓ CẤU TRÚC và ĐƯỢC XÁC ĐỊNH trước khi chúng có thể được lưu trong cơ sở dữ liệu. Các công cụ khai phá dữ liệu đặc biệt được dùng để thu thập những dữ liệu này từ cơ sở dữ liệu, phân tích chúng để nhận diện các hình mẫu và phát sinh báo cáo cho cấp quản lí. Nói cách khác, nếu dữ liệu được lưu trong cơ sở dữ liệu và được cấu trúc theo hàng và cột, bất kể kích cỡ của chúng lớn tới đâu, đều là miền của Khai phá dữ liệu.

Ngày nay, có các kiểu dữ liệu khác KHÔNG ĐƯỢC XÁC ĐỊNH VÀ KHÔNG CÓ CẤU TRÚC và chúng ở rải rác khắp nơi.

Chẳng hạn, dữ liệu từ Internet, từ hàng triệu website và mạng xã hội như ảnh Facebook, đồ thị thị trường chứng khoán, tin tức từ Twitter, dữ liệu cá nhân từ Linkedln, bản ghi sức khoẻ điện tử từ các bệnh viện, dữ liệu xu hướng kinh tế từ các viện nghiên cứu, dữ liệu thời tiết, dữ liện kinh doanh, emails, ảnh, video cá nhân, video từ YouTube, phim và nhạc tải xuống v.v. Những dữ liệu này KHÔNG THỂ được thu tập hay lưu giữ bởi các công cụ cơ sở dữ liệu điển hình. Hơn thế nữa, những dữ liệu này thay đổi hay tăng lên về kích thước một cách nhanh chóng. Chúng thêm mãi vào, hàng tỉ hàng tỉ, hàng nghìn tỉ hàng nghìn tỉ thứ xảy ra trong “thế giới ảo.” Những dữ liệu này cũng rất có giá trị để xác định hình mẫu hay xu hướng nữa. Khi bạn tổ hợp khối lượng dữ liệu lớn, sự đa dạng của các kiểu dữ liệu, và tốc độ chúng thay đổi thì bạn đang giải quyết với miền của Big Data.

Big Data đã vượt quá các quan niệm cơ sở dữ liệu truyền thống. Qui mô lớn của chúng về các hình mẫu và xu hướng cũng khó được thấy. Mối quan hệ của chúng trong mọi kiểu dữ liệu khác nhau là quá phức tạp để được quan sát. VÀ chúng liên tục thay đổi với tốc độ của internet cho nên khó nhận diện dữ liệu này để lộ ra cái gì. Về căn bản, các quan niệm và công cụ của cơ sở dữ liệu và khai phá dữ liệu hiện thời KHÔNG có tác dụng nữa. Đó là lí do tại sao nó cần các quan niệm mới, công cụ mới, thuật toán mới và đó là lí do tại sao Bid Data là thứ mới ngày nay.

Tác phẩm, tác giả, nguồn

  • Tác phẩm: Xu hướng công nghệ
  • Nguồn: Blog của giáo sư John Vu, Carnegie Mellon University
  • Wiki hóa: https://kipkis.com