Phân tích dữ liệu

Một người quản lí doanh nghiệp hỏi: “Khác biệt gì giữa Phân tích Big DataPhân tích truyền thống? Chúng tôi đã từng làm phân tích nhiều năm và tôi không thấy tại sao big data lại quan trọng thế.”

Đáp: Có khác biệt lớn giữa phân tích Big Data và phân tích truyền thống. Phân tích truyền thống dựa trên các yêu cầu doanh nghiệp nơi dữ liệu được xác định, có cấu trúc, được thu thập, và được phân tích thành thông tin về hiệu năng doanh nghiệp để cho chúng có thể được so sánh với thông tin quá khứ. Chẳng hạn số bán tháng này ít hơn nhiều so với tháng trước hay công ti dùng nhiều điện năm nay hơn năm trước. Dùng thông tin này cấp quản lí có thể ra quyết định liên quan tới vận hành của công ti như lợi nhuận, chất lượng, năng suất, cạnh tranh, hay phế thải v.v. Phân tích dữ liệu truyền thống nhận diện dữ liệu nào họ muốn thu thập và lưu giữ chúng trong trang tính excel hay cơ sở dữ liệu nơi chúng có thể được phân tích bởi các công cụ mô hình hoá thống kê để tạo ra báo cáo trinh sát doanh nghiệp.

Phân tích Big Data là về dự đoán xu hướng và hình mẫu về điều có thể xảy ra trong tương lai dựa trên dữ liệu từ nhiều nguồn (Đa dạng). Vì dữ liệu không được xác định, một số có thể là văn bản, ảnh, video, hay kí hiệu (mã vạch) v.v. nó yêu cầu cách nghĩ và cách tiếp cận khác hoàn toàn. Bởi vì có nhiều thứ trong chúng từ nhiều nguồn, dữ liệu là khổng lồ (Khối lượng) và nó thay đổi thường xuyên (Gia tốc) cho nên rất khó thu thập và phân tích bằng việc dùng phương pháp truyền thống. Vì những dữ liệu này không được xác định, một số là có cấu trúc và một số thì không, chúng không thể được lưu giữ trong trang tính hay cơ sở dữ liệu mà phải được “mô hình hoá lại” và được tổ chức khác đi để xem thông tin hay hình mẫu nào có thể được thu thập và được nhận diện cho dự báo tương lai. Chẳng hạn, kinh doanh trực tuyến có thể thu thập dữ liệu phi cấu trúc từ phương tiện xã hội để xác định sản phẩm nào được người dùng nhắc tới thường xuyên; xu hướng nào đang nổi lên, hay quảng cáo nào là hiệu quả do số lượng bấm của người dùng v.v.

Các công cụ của trinh sát doanh nghiệp truyền thống được thiết kế cho dữ liệu có cấu trúc như văn bản và số nhưng KHÔNG được thiết kế cho dữ liệu phi cấu trúc như mã vạch và ảnh. Bạn sẽ cần các công cụ khác, các thuật toán khác và mô hình toán học cho phân tích big data vì có nhiều nguồn từ đó dữ liệu có thể được phân tích (đa dạng). Chẳng hạn trong phân tích bảo hiểm truyền thống, bạn có thể lấy thừa số rủi ro dựa trên tập các câu hỏi như, tuổi, sức khoẻ, tai nạn, giá trị v.v. Bây giờ với từng câu hỏi, có nhiều dữ liệu sẵn có dựa trên giao diện của người dùng qua phương tiện xã hội, thiết bị di động v.v. Thông tin này sẽ dứt khoát ảnh hưởng tới kết quả cuối cùng (tính nhân tố rủi ro). Vì những dữ liệu này không ở một chỗ, nó là phi cấu trúc và được sinh ra tại mọi khoảng thời gian đã cho qua nhiều nguồn và theo khối lượng khổng lồ do đó các công cụ mô hình hoá sẽ phải thay đổi và tổ hợp công nghệ học máy để nắm bắt tất cả những điều này.

Tác phẩm, tác giả, nguồn

  • Tác phẩm: Xu hướng công nghệ
  • Nguồn: Blog của giáo sư John Vu, Carnegie Mellon University
  • Wiki hóa: https://kipkis.com