Home > SQL Server > ỨNG DỤNG GIẢI THUẬT MICROSOFT TIME SERIES ALGORITHM TRONG SQL SERVER ANALYSIS SERVICES

ỨNG DỤNG GIẢI THUẬT MICROSOFT TIME SERIES ALGORITHM TRONG SQL SERVER ANALYSIS SERVICES


Giới thiệu tổng quan

Giải thuật trục thời gian dựa trên cơ sở giải thuật truy hồi nhằm tối ưu hóa việc dự đoán các chuỗi giá trị liên tục như dữ liệu bán hang sản phẩm. Trái lại, với các giải thuật khai thác dữ liệu khác như giải thuật cây quyết định, yêu cầu thêm một số thông tin đầu vào nhằm mục đích dự đoán các xu hướng kế tiếp của dữ liệu, đây là một vấn đề mà mô hình giải thuật trục thời gian không thực hiện được. Một mô hình giải thuật theo trục thời gian có thể dự đoán các xu hướng của dữ liệu, tuy nhiên phải dựa trên tập dữ liệu gốc được dùng để xây dựng mô hình và ta hoàn toàn có thể thêm mới các cột dữ liệu đầu vào, tự động kết hợp với nguồn dữ liệu hiện tại một cách hoàn toàn tự động trong quá trình phân tích dự đoán thông tin.

Sơ đồ dưới đây là một mô hình điển hình về việc dự đoán kinh doanh sản phẩm trên 4 khu vực chiến lược theo trục thời gian. Đường vạch phân vùng thông tin thành 2 phần riêng biệt:

· Thông tin dữ liệu hiện tại của tổ chức nằm bên trái, được thể hiện và sử dụng để xây dựng mô hình.

· Thông tin dự đoán nằm bên phải thể hiện thông tin dự đoán.

Một năng lực quan trọng nhất của giải thuật dự đoán dự trên trục thời gian là khả năng dự đoán xuyên suốt, nghĩa là nếu ta tiến hành dự đoán 2 chuỗi thông tin rời rạc nhau hoàn toàn, nhưng lại có liên hệ với nhau, ta vẫn có thể dùng mô hình để lấy ra được kết quả, để tiến hành làm dữ liệu đầu vào dự đoán cho một mô hình dự đoán kế tiếp. Ví dụ, việc giám sát hoạt động kinh doanh trên một sản phẩm có ảnh hưởng đến việc dự đoán đến hoạt động kinh doanh của các sản phẩm khác. Khả năng dự đoán xuyên suốt này có vai trò rất quan trọng, vì khả năng này sẽ giúp xây dựng một mô hình dự đoán chung nhất, ứng dụng cho nhiều mảng công việc, từng chuỗi sự kiện khác nhau, điển hình là khi xây dựng mô hình dự đoán dữ liệu cho 4 khu vực kinh doanh khác nhau, nếu như ta tiến hành xây dựng 4 mô hình giải thuật khác nhau thì sẽ gây sự không ổn định do nguyên nhân là do dữ liệu tại mỗi khu vực không đầy đủ, nhất quán và chất lượng kém. Do đó giải pháp cho chúng ta là tiến hành xây dựng một mô hình dự đoán dữ liệu chung nhất cho cả 4 khu vực trên, sau đó ứng dụng mô hình dự đoán này vào cho từng khu vực cụ thể để đảm bảo khả năng dự đoán thông tin ổn định cho mỗi vùng.

Case Study

Nhóm quản lí tại công ty Adventure Works Cycles muốn tiến hành dự đoán thông tin bán hàng mỗi tháng trong năm tới. Công ty muốn sử dụng mô hình bán hàng trên dòng sản phẩm xe đạp, có thể được sử dụng vào dự đoán các mô hình bán hàng các dòng sản phẩm khác của công ty. Sử dụng giải thuật dự đoán dựa trên trục thời gian với dữ liệu trong 3 năm qua, công ty tiến hành xây dựng mô hình khai thác dữ liệu, dự đoán hoạt động bán hàng của công ty trong tương lai. Ngoài ra, công ty có thể xây dựng một mô hình dự đoán xuyên suốt đối với các xu hướng, phân khúc kinh doanh có mối liên hệ với nhau.

Yêu cầu dữ liệu đối với mô hình khai thác dữ liệu dựa trên trục thời gian thực

Khi tiến hành tập huấn, xây dựng bất cứ mô hình dữ liệu nào, ta cũng cần phải nắm rõ các yêu cầu cụ thể cho từng mô hình

Mỗi mô hình dự đoán phải bao gồm một chuỗi các trường hợp, gồm có cột đặc tả thời gian và các chuỗi thông tin khác khi xuất hiện thay đổi, ví dụ như biểu đồ trên thể hiện doanh thu bán hàng trên dữ liệu trong thời gian qua, nhưng đồng thời cũng tiến hành dự đoán doanh số bán hàng các tháng tiếp theo, và cũng là một case series. Trong mô hình này, các vùng địa lí chính là chuỗi mang các giá trị tương ứng với chuỗi thời gian. Trong mô hình khác, chuỗi các giá trị có thể là text hoặc các kiểu dữ liệu khác, nhưng chuỗi thời gian luôn là kiểu dữ liệu datetime.

Một số yêu cầu trong mô hình dự đoán trên trục thời gian:

  • Cột giá trị khóa thời gian đơn: Mỗi mô hình phải tồn tại một case series đơn nhất, giá trị là kiểu datetime và thuộc một column đơn. Giá trị thuộc cột này phải là giá trị liên tục.
  • Cột giá trị dự đoán: đây là cột mang giá trị dự đoán trong mô hình khai thác dữ liệu theo thời gian. Giá trị trong cột dự đoán này mang các giá trị liên tục, ví dụ như thu nhập, doanh số bán hàng, nhiệt độ, …
  • Các cột giá trị tùy chọn: Mỗi mô hình có một số cột giá trị tùy chọn

Advertisements
  1. Thuan
    November 24, 2009 at 6:29 PM

    Great, chúc em thành công với đề tài đã chọn

  1. No trackbacks yet.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: