Deep data cũng chỉ là một thuật ngữ để đối trọng với Big data (Buzzword), thực ra làm deep data cũng là làm data mining (khai khoáng dữ liệu), tìm ra những góc tối tăm, thâm sâu và ý nghĩa của dữ liệu nhằm tăng giá trị cạnh tranh của doanh nghiệp ứng dụng nó.
Big data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyền thống không thể nào đảm đương được. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định điều kiện giao thông theo thời gian thực. Chính vì thế, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường.
Big Data là những tập hợp dữ liệu có dung lượng vượt mức đảm đương của những ứng dụng và công cụ truyền thống. Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu mà thôi.
Theo ông Võ Duy Tuấn, sáng lập và giám đốc điều hành của Sprial Outsourcing. Để phát huy và vận dụng được một cách có hiệu quả Big Data cần rất nhiều thời gian, công sức và tiền bạc, đồng thời thuật ngữ Big data không phản ánh đúng giá trị. Do vậy ông tập trung vào khái niệm do bản thân tự nghĩ ra: Deep Data.
Deep Data
Deep data là từ mình mới nghĩ ra, ám chỉ bạn khai thác sâu đến mức nào. Và tùy vào khả năng của bạn cũng như tình hình tài chính, chính sách đầu tư R&D để tập trung biến Deep Data thành mũi nhọn chiến lược.
Deep data cũng chỉ là một thuật ngữ để đối trọng với Big data (Buzzword), thực ra làm deep data cũng là làm data mining (khai khoáng dữ liệu), tìm ra những góc tối tăm, thâm sâu và ý nghĩa của dữ liệu nhằm tăng giá trị cạnh tranh của doanh nghiệp ứng dụng nó.
Những bước để bắt đầu làm Deep data cho doanh nghiệp
Sau khi có chiến lược rõ ràng về hạ tầng, nhân sự, thời gian thì bạn tiến hành một số bước sau để phân tích. Hầu hết các nội dung đều do BA yêu cầu và đội ngũ IT chỉ là thực hiện theo để đáp ứng các như cầu của doanh nghiệp. Cho nên, BA là linh hồn của các hệ thống này.
Bước 1: Thu thập dữ liệu (Collecting)
Có nhiều kỹ thuật thu thập dữ liệu hiện giờ, từ web, pos data, sale data…Điều cốt lõi ở bước này là bạn chuẩn bị các hệ thống sẵn sàng cho việc thu thập một lượng dữ liệu đủ lớn nhưng không ảnh hưởng nhiều đến quá trình hoạt động của hệ thống. VD: Bạn có một website bán hàng, bạn có thể thiết lập hệ thống thu thập dữ liệu nhưng không được ảnh hưởng đến người dùng đang xem website.
Tiếp theo, bạn phải xác định xem là mình sẽ thu thập thông tin gì, gọi là Metric. Đối với web, có hàng ngàn metric mà bạn có thể thu thập từ số lần đăng nhập thành công, thất bại, thêm vào giỏ hàng, không mua hàng…
Bước 2: Báo cáo (Reporting)
Sau khi thu thập các thông tin cần thiết, việc tiếp theo là thiết kế các hệ thống báo cáo “hoành tráng”, thể hiện đúng các yêu cầu cần coi số liệu của một bộ phận nhân sự nào đó. Do số liệu có thể nhiều, nên việc kiến trúc một hệ thống report có thời gian phản hồi nhanh sẽ là bài toán khó nhất ở bước này.
Không chỉ dừng lại ở các báo cáo thông thường, bạn cũng có thể xây dựng các báo cáo thể hiện sự tương quan giữa các số liệu của những metric khác nhau, nhằm giúp doanh nghiệp có những chiều kích dữ liệu mới hơn để dễ dàng đưa ra quyết định.
Hầu hết các hệ thống dừng ở bước Reporting là khá lớn và cũng đáp ứng khá nhiều thông tin cần thiết của một doanh nghiệp. Tuy nhiên, nếu dừng lại ở đây thì hệ thống chỉ có thể coi là một hệ thống report và tham chiếu số liệu chứ chưa thực sự đi sâu vào deep data.
Bước 3: Đào bới (Digging)
Ở bước đào bới dữ liệu này, tức là đi sâu vào cái đống dữ liệu hiện có để tìm ra những thông tin sáng giá và có thể ứng dụng vào doanh nghiệp. Tới bước này, đòi hỏi một người BA có kiến thức rộng về data mining hoặc phải có một người có hiểu biết về khoa học dữ liệu (data science). Một số nhu cầu thường được đề cập ở bước này là Đề xuất (Recommendation), Dự đoán (Prediction) và Phân nhóm (Grouping).
- Đề xuất: là một mảng khá thông dụng, đặc biệt là những lĩnh vực có nhiều dữ liệu người dùng như đề xuất mua hàng, đề xuất xem, đề xuất nhập kho, đề xuất đuổi nhân viên ^^!, đề xuất quy trình mang lại lợi nhuận cao nhất.
- Dự đoán: cho tới hiện tại, hầu hết các dự đoán đều xuất phát từ cảm nhận, giác quan của CxO, tuy nhiên, với sự giúp đỡ của các hệ thống dự đoán thì sẽ giúp các phán đoán và quyết định được tin tưởng và thuyết phục hơn. Ngoài ra, dự đoán cũng được dùng nhiều để tìm ra các mô hình dự đoán doanh thu, lợi nhuận, giá bán, đối thủ, thị trường…
- Phân nhóm: đây là một nhánh tính toán giúp hình thành các nhóm thông tin dựa trên các thông tin sẵn có, được áp dụng nhiều cho các chiến lược marketing, phân loại khách hàng, phân loại sản phẩm để có các hướng đề xuất phù hợp cho từng nhóm sau khi đã được phân loại. Ứng dụng của loại này cũng được dùng để phân loại các thông tin dựa theo một mô hình xử lý nào đó, ví dụ phân loại đơn hàng rác, khách hàng vãng lai…
Nguồn: www.bloghoctap.com