Big Data là gì

Một người quản lí hỏi: “Tôi đã đọc bài của thầy về “Big Data-Dữ liệu lớn” nhưng vẫn không hiểu đích xác nó nghĩa là gì. Chúng tôi thu thập nhiều dữ liệu cho công ty chúng tôi và lưu giữ chúng trong cơ sở dữ liệu. Đó có phải là Dữ liệu lớn không? Tại sao nó quan trọng ngày nay. Xin thầy lời khuyên.”

Đáp: Có khác biệt giữa "Dữ liệu lớn" và "Nhiều dữ liệu" và mọi người thường bị lẫn lộn. Chẳng hạn, ngân hàng và các công ty tài chính xử lí nhiều dữ liệu nhưng tất cả dữ liệu của họ đều được xác định rõ hay có cấu trúc tốt như tài khoản khách hàng, số tiền, kiểu vay nợ, có hay nợ v.v. Đây KHÔNG phải là Dữ liệu lớn mà chỉ là "nhiều dữ liệu." Các công ty có thể lưu giữ các dữ liệu này trong các cơ sở dữ liệu và dùng phần mềm Trinh sát doanh nghiệp (BI) để phân tích và cung cấp các báo cáo cho cấp quản lí.

Để có tư cách là "Dữ liệu lớn" các dữ liệu phải đáp ứng tiêu chí có tên "Ba "V": Volume - khối lượng, Variety - đa dạng và Velocity - vận tốc. Với Volume nó có nghĩa là dữ liệu phải cực kì lớn, đo theo Petabytes hay Zetabytes. Với Variety nó có nghĩa là dữ liệu có cả cấu trúc và phi cấu trúc hay được xác định rõ và không được xác định. Chẳng hạn một số dữ liệu có thể là văn bản nhưng số khác có thể là ảnh như ảnh y học hay video YouTube. Với Velocity, nó có nghĩa là những dữ liệu này thường tới rất nhanh và thường xuyên thay đổi như luồng video cho các ảnh, hay các thông điệp nạp vào twitter.

Bởi vì những hiện tượng này, cơ sở dữ liệu quan hệ hiện thời sẽ không có khả năng lưu giữ chúng (quá lớn và quá không được tổ chức) và phần mềm hiện thời sẽ không có khả năng xử lí chúng (lớn, phi tổ chức và thay đổi quá nhanh) và đó là lí do tại sao nó mở ra thách thức hoàn toàn mới cho người làm công nghệ thông tin.

Trong quá khứ khi mọi dữ liệu đều được xác định rõ và có cấu trúc, chúng có thể được lưu giữ trong các tệp lớn để được truy lục và cập nhật bất kể lớn thế nào hay nhiều tệp bao nhiêu. Trong trường hợp này phần mềm Trinh sát doanh nghiệp (BI) không thể phân loại được dữ liệu, thu thập thông tin cần thiết, phân tích chúng và tạo ra báo cáo cho các mức quản lí khác nhau. Ngày nay khi dữ liệu là khổng lồ và bao gồm cả có cấu trúc và phi cấu trúc, một số là văn bản và một số là ảnh hay video, nó không thể được lưu giữ trong các tệp có tổ chức mà cần những kiểu tệp khác với phần mềm mới, thuật toán mới mà có thể tổ hợp những dữ liệu này và lưu giữ chúng để cho chúng có thể được phân tích, tổ chức, thu thập và tạo ra báo cáo. Vì một số trong những dữ liệu này thay đổi cực kì nhanh, một số trong chúng là thông tin phụ thuộc thời gian như video mới, phim và ảnh v.v. Chúng yêu cầu cách tiếp cận mới, cách mới để tổ chức chúng, và thuật toán mới để xử lí, đặt quan hệ và giải quyết với nhiều biến thiên hơn các công cụ trước đây.

Tác phẩm, tác giả, nguồn

  • Tác phẩm: Xu hướng khoa học công nghệ toàn cầu
  • Nguồn: Blog của giáo sư John Vu, Carnegie Mellon University.
  • Wiki hóa: https://kipkis.com