Hà Minh Tuấn (TCT Mạng lưới Viettel) đã đăng lúc 14:40 - 18.11.2022
"Big Data - Dữ liệu lớn" của Viktor Mayer - Schonberger và Kenneth Cukier là một trong các cuốn sách đầu tiên đã thành công trong việc giới thiệu đến đông đảo người đọc một cách toàn diện và dễ hiểu nhất về “Big Data” – chủ đề được bàn luận rộng rãi trong suốt thời gian qua. Bằng việc đưa ra các dẫn chứng thực tế tại Mỹ trên nhiều lĩnh vực nhằm hình ảnh hoá và cụ thể hoá những vấn đề cần khai thác, hai tác giả đã cô đọng hầu như toàn diện những khía cạnh về “dữ liệu lớn” qua 9 chương sách một cách tự nhiên và khéo léo để những người không biết nhiều về kỹ thuật vẫn có thể hiểu được dữ liệu lớn là gì, áp dụng ra sao, mang lại ích lợi gì,…
Theo xu thế phát triển, thế giới của chúng ta ngày càng trở nên thông minh hơn, thông tin được trao đổi online và số hóa. Những thông tin đó được con người sử dụng làm dữ liệu, những thứ mà con người thao tác trên nền tảng số đều được lưu trữ và nó được gọi là Big Data – Dữ liệu lớn, như vậy dữ liệu lớn sẽ bao gồm cả về dung lượng và/hoặc quy mô của nó. Cuốn sách “ Dữ liệu lớn” sẽ đề cập đến sự phát triển đó và nêu cao vai trò quan trọng của Big Data trong thời đại kỷ nguyên số và điều mà chúng ta cần quan tâm và cần phải biết đó là nó là gì và hoạt động như thế nào, không dừng lại ở đó khi đọc cuốn sách này chúng ta sẽ có một sự hiểu biết rõ ràng hơn và lên kế hoạch để tiếp cận và sử dụng nó để cải thiện hiệu suất và có được những kết quả nhất định.
Càng đi sâu vào nội dung của cuốn sách tôi chắc chắn rằng mọi người khi đọc nó cũng cùng chung cảm nhận như tôi đó là không dừng lại ở một cuốn sách thông thường, “Dữ liệu lớn” còn là một tác phẩm khoa học công nghệ chính gốc giúp chúng ta nhìn thấy sự ảnh hưởng của nó đối với cuộc sống của chính chúng ta như thế nào ở mặt tích cực và cả tiêu cực từ đó tìm ra cách bảo vệ bản thân mình khỏi những nguy cơ tiềm ẩn trong đó. Ở đây tôi muốn chia sẻ một số điểm mới và nổi bật được đề cập trong quyển sách:
Cách thức sử dụng dữ liệu lớn với phương châm tìm hiểu “cái gì” chứ không phải “tại sao“. Nghĩa là khai thác dữ liệu từ những mảnh vụn có phần “vô nghĩa”, tái cấu trúc nó, phân tích với những thuật toán và công cụ xác suất thống kê, rồi từ đó để dữ liệu “tự nói” lên thông tin hữu ích. Nó khác với cách tư duy trước đây là từ những thông tin, kết quả đã biết chúng ta đi tìm các dữ liệu để giải thích và chứng minh nó.
Có một nghịch lý hiện tại trong thị trường Big Data đó là các doanh nghiệp nắm giữ một lượng lớn dữ liệu (thường họ có được do thu thập, lưu trữ qua nhiều năm dựa trên công tác kinh doanh của họ) lại không/hoặc chưa biết cách khai thác lượng dữ liệu lớn này một cách hiệu quả, hữu ích. Nếu như Google khai thác cơ sở dữ liệu tìm kiếm (search query) của hàng triệu người dùng để từ đó bổ trợ cho các công cụ quảng cáo, dịch thuật, hay Amazon khai thác thói quen duyệt web của khách hàng, Walmart khai thác thông tin mua hàng tại cửa hàng dựa theo thời tiết, chu kỳ mua sắm, mật độ giao thông… thì những ngành nghề như quản lý hành chính, cơ quan dân sự của nhà nước, dân số, hàng không, thời tiết, giao thông, quân đội, y tế… lại chưa thực sự “nhảy” vào khai thác mảng dữ liệu màu mỡ mà họ đang có. Và hiện tại đang có những Công ty đã đứng ra làm đối tác trung gian để cung cấp các nguồn dữ liệu lớn này cho các đơn vị muốn sử dụng, đây là một hình thức kinh doanh mới sẽ triển khai rộng rãi trong thời gian tới.
Ngoài việc đề cập tới lợi ích và những góc cạnh mới mẻ của việc khai thác và áp dụng dữ liệu lớn, tác giả còn đồng thời cung cấp cho người đọc cả các mặt tối đằng sau của những công tác này - khiến cho người đọc không khỏi đi từ hết kinh ngạc này tới sửng sốt khác thông qua cách mà những cơ quan tình báo và quân sự Mỹ khai thác dữ liệu lớn vào việc phòng chống tội phạm, lên chiến lược hay giảm thiểu rủi ro thiên tai,.., cũng như là hồi chuông cảnh báo cho những người nào quá xông xáo có dữ liệu lớn mà quên nhìn nhận những mặt trái của nó.
Để hiểu sâu về cuốn sách này thì tôi nghĩ việc cần phải làm đầu tiên đó là hiểu khái niệm của nó từ đó phân tích tập hợp dữ liệu để tìm ra tương quan với các xu thế của thời đại ngày nay để áp dụng cả trong kinh doanh, an ninh, y tế,… Một trong những vấn đề mà những người đứng đầu các ngành nghề đều gặp phải, đó là khó khăn trong việc tập hợp dữ liệu, việc kiểm soát và triển khai sử dụng khối dữ liệu này như thế nào. Có thể nói nếu biết cách tận dụng và sử dụng “dữ liệu lớn” thì đây được coi là quân cờ quyết định để các doanh nghiệp, Tập đoàn lớn có thể chiến thắng trong các cuộc đua tranh nhưng cũng là một hạn chế cho các doanh nghiệp nhỏ chưa có đủ nguồn dữ liệu để dự trữ và áp dụng nó vào công việc của doanh nghiệp mình. Khi đọc cuốn sách này, các doanh nghiệp nhỏ cũng sẽ hiểu được “dữ liệu lớn” là gì để có thể áp dụng nó vào hoạt động của đơn vị mình và có thể gặt hái được thành công.
Sâu xa hơn, chúng ta cần phải hiểu được rằng để có một kho tàng “dữ liệu lớn” thì cần có sự đóng góp của từng cá nhân mới tạo ra được bởi mỗi cá nhân sẽ có số lượng dữ liệu không hề nhỏ. Để khai thác tiềm năng đó đòi hỏi các tổ chức, Tập đoàn cần phải có đủ cơ sở hạ tầng để thu thập và lưu trữ các dữ liệu đó bao gồm cả vấn đề bảo mật, mã hóa và quyền truy cập của người dùng để bảo vệ toàn bộ dữ liệu cũng như hệ thống dữ liệu đó. Nếu như các công ty, Tập đoàn nắm bắt được tầm quan trọng của Big Data và có một tầm nhìn chiến lược trong việc khai thác nó thì chắc chắn rằng việc sử dụng dữ liệu sẽ hiệu quả hơn gấp nhiều lần các giải pháp truyền thống.
Viettel là 1 doanh nghiệp dẫn đầu về viễn thông và CNTT tại Việt Nam và nằm trong TOP30 của thế giới, đang nắm trong tay rất nhiều dữ liệu lớn. Đây là mỏ vàng cần được các đơn vị trong Tập đoàn khai thác để tiếp tục duy trì vị trí dẫn đầu và tiếp tục bứt phá trong thời gian tới. Các các ví dụ (use case) về các công ty lớn tại Mỹ như Google, Amazon, Walmart, Twitter, Facebook,... đã sử dụng "dữ liệu lớn" được đưa ra trong cuốn sách này sẽ là các bài học tham khảo rất tốt cho Viettel trong quá trình chúng ta triển khai.