Big Data

Big Data - Dữ liệu lớn

Khi công nghệ thông tin đang được dùng nhiều hơn trong mọi doanh nghiệp, khối lượng dữ liệu cũng tăng lên nhiều và trong thời gian ngắn, phần lớn doanh nghiệp sẽ có nhiều dữ liệu hơn họ có thể hình dung. Theo một báo cáo công nghiệp, nhiều công ty sẽ dùng từ 100 terabytes (TB) và 9 petabytes (PB) dữ liệu và khối lượng dữ liệu sẽ gấp đôi cứ sau 18 tháng. (Nghĩ về Moore's Law). Mọi ngày, dữ liệu được sinh ra từ mọi kiểu nguồn.

Chẳng hạn, Twitter nhận được 200 triệu tin nhắn một ngày hay 46 megabytes một giây; Facebook thu thập trung bình 15 Terabytes mỗi ngày. Google báo cáo rằng từng ngày bẩy triệu trang web được thêm vào Internet. Công nghiệp kinh doanh trực tuyến thêm 12 triệu giao tác hay 25 petabytes dữ liệu mỗi giờ. Công nghiệp viễn thông có trên 5 tỉ người dùng điện thoại trên thế giới. Mỗi ngày 2 tới 3 tỉ người dùng truy nhập vào internet để đọc, tìm mọi kiểu thông tin; mọi người cũng tương tác với nhau bằng emails, tin nhắn v.v. Tất cả những điều này cũng làm phát sinh nhiều dữ liệu hơn trước đây. Vì khối lượng là lớn thế, tới từ đa dạng nguồn, phần lớn dữ liệu đều phi cấu trúc và bên ngoài việc xử lí của công cụ quản lí dữ liệu hiện thời, nó yêu cầu cách tiếp cận mới, công cụ mới để thu thập và phân tích dữ liệu cho nên nó được cho cái tên là “Big Data”.

Big Data được coi là "thứ lớn tiếp sau" tương tự như máy tính cá nhân trong những năm 1970 và Internet trong những năm 1990. Nếu chúng ta nhìn vào lịch sử ngắn ngủi của công nghệ thông tin về dữ liệu chúng ta có thể thấy tại sao. Trong những năm 1980 Quản lí hệ thống cơ sở dữ liệu quan hệ (RDBS) chỉ là những hệ thống cơ sở dữ liệu thông thường được dạy trong chương trình Quản lí hệ thông tin. Tuy nhiên với bùng nổ của công nghệ thông tin khi nhiều công ty thu thập dữ liệu, đột nhiên RDBS phát triển thành kinh doanh nhiều tỉ đô la với các công ty như Oracle và SAP. Trong những năm 1990, truy lục thông tin và động cơ tìm kiếm đã là vài môn học được dạy trong chương trình chuyên sâu khoa học máy tính nhưng với tăng trưởng của Internet, nó đã biến thành kinh doanh nhiều tỉ đô la với công ty như Google. Ngày nay với Big Data, công cụ cơ sở dữ liệu và cơ sở dữ liệu như RDBS hay SQL sẽ không có tác dụng nữa vì dữ liệu quá lớn và quá phi cấu trúc. Có việc xô vào tìm "thứ lớn" tiếp mà có thể giải quyết cho Big Data. Hiện thời chúng ta đang ở ngưỡng cửa của một biến cố đột phá khác, nơi bất kì ai có thể "làm chủ nó″ sẽ phát đạt và có thể trở thành Bill Gates tiếp.

Nhiều chính phủ coi Big Data như công nghệ có tác động cao nhất trên thế giới ngày nay và nó sẽ có ảnh hưởng sâu sắc lên mọi thứ trong thế kỉ này. Big Data cũng trình ra cơ hội lớn cho sinh viên CNTT người làm chủ tri thức và kĩ năng này trong thu thập, tổ chức và phân tích khối lượng dữ liệu khổng lồ này và biến nó thành thông tin có ích cho ưu thế cạnh tranh. (Công thức: Big Data = Tri thức lớn = Thông tin lớn = Ưu thế lớn) Nghiên cứu công nghiệp thấy rằng vào lúc này, chỉ rất ít công ty có công việc trên Big Data nhưng họ đã là tốt hơn mọi đối thủ cạnh tranh của họ, những người không được chuẩn bị, bởi ưu thế lớn.

Sinh viên quan tâm tới Big Data sẽ cần tri thức và kĩ năng nào đó trong: lập trình Java, truy lục thông tin, khai phá văn bản, tích hợp hệ thống qui mô lớn; MapReduce (một mô thức lập trình tạo khả năng cho xử lí song song); Apache “Hadoop” (khuôn khổ xử lí và lưu giữ nguồn mở dựa trên MapReduce, dùng hệ thống tệp phân bố); NoSQL(một lớp cơ sở dữ liệu phi quan hệ, phi SQL bao gồm lưu giữ tài liệu, lưu giữ khoá-giá trị, và cơ sở dữ liệu đồ hoạ được thiết kế cho làm việc với số lượng dữ liệu khổng lồ); BigTable (một kiểu cơ sở dữ liệu NoSQL có tính đổi qui mô cao, thưa, phân bố, ánh xạ phân loại đa chiều bền); Học máy (khu vực trí tuệ nhân tạo liên quan tới phát triển các thuật toán phức tạp lấy dữ liệu vào từ những cảm biến hay cơ sở dữ liệu để làm dự báo).

Tác phẩm, tác giả, nguồn

  • Tác phẩm: Xu hướng khoa học công nghệ toàn cầu
  • Nguồn: Blog của giáo sư John Vu, Carnegie Mellon University.
  • Wiki hóa: https://kipkis.com