Home > SQL Server > Tổng quan về các giải thuật khai thác dữ liệu có trong SQL Server Analysis Services

Tổng quan về các giải thuật khai thác dữ liệu có trong SQL Server Analysis Services


Giới thiệu tổng quan

Giải thuật Data Mining là kỹ thuật nhằm mục đích xây dựng các mô hình khai thác dữ liệu. Để xây dựng các mô hình khai thác dữ liệu thì một giải thuật, trước tiên phải tiến hành phân tích tập các dữ liệu và tìm kiếm các mẫu đặc trưng của dữ liệu. Giải thuật sử dụng các kết quả của việc phân tích này để xác định các tham số của mô hình khai thác. Các tham số này sẽ được áp dụng vào tập dữ liệu hiện tại để chiết xuất các mẫu thể hiện thông tin và các báo cáo thống kê chi tiết.

Mô hình khai thác dữ liệu do cùng một giải thuật Data Mining xây dựng có nhiều hình thức khác nhau, gồm có:

  • Tập các luật đặc tả cách thức mà các sản phẩm được nhóm lại với nhau trong cùng một giao tác hiện thực.
  • Cây quyết định dự đoán một người khách hàng có chăng sẽ mua sản phẩm của công ty.
  • Biểu đồ toán học dự báo hoạt động bán hàng.
  • Tập các nhóm thể hiện các trường hợp mà các nhóm dữ liệu có liên quan đến nhau

Microsoft SQL Server Analysis Services cung cấp các giải thuật cho việc xây dựng các giải pháp khai thác dữ liệu. Các giải thuật được sử dụng trong SSAS là tập con của nhiều giải thuật Data Mining khác.

Các nhóm giải thuật Data Mining

SQL Server Analysis Services cung cấp công cụ phân tích và khai thác dữ liệu dựa trên cơ sở 5 giải thuật Data Mining sau:

  • Giải thuật phân loại (Classification Algorithm) – dự đoán ra một hoặc nhiều giá trị biến rời rạc, dựa trên các thuộc tính khác của tập dữ liệu. Điển hình là giải thuật Cây Quyết Định – Microsoft Decision Trees Algorithm.
  • Giải thuật đệ qui (Regression Algorithm) – dự đoán một hoặc nhiều biến giá trị liên tục, như lợi nhuận và giá trị thua lỗ, dựa trên các thuộc tính dữ liệu khác trong tập dữ liệu. Điển hình là giải thuật chuỗi thời gian – Microsoft Time Series Algorithm.
  • Giải thuật phân đoạn (Segmentation Algorithm) – phân chia dữ liệu thành nhiều nhóm gồm các thành phần có thuộc tính tương tự nhau. Giải thuật điển hình là Microsoft Clustering Algorithm.
  • Giải thuật tương quan (Assocication Algorithm) – tìm sự tương quan giữa các thuộc tính trong củng tập dữ liệu. Ứng dụng phổ biến nhất của giải thuật này là xây dựng các luật tương quan, phân tích giỏ hàng. Giải thuật điển hình loại giải thuật này là Microsoft Assocciation Algorithm
  • Giải thuật phân tích tuyến tính (Sequence Analysis Allgorithm) – tổng kết các chuỗi hoặc mảng dữ liệu trong tập dữ liệu. Điển hình cho loại giải thuật này là Microsoft Sequence Clustering Algorithm

Ứng dụng của các giải thuật

Việc chọn lựa các giải thuật tối ưu để sử dụng cho một tác vụ nghiệp vụ đặc trưng thật sự là một thách thức rất lớn. Nguyên nhân do vấn đề là bạn có thể sử dụng rất nhiều giải thuật khác nhau cho cùng một tác vụ nghiệp vụ cụ thể, và mỗi loại giải thuật sẽ cho các kết quả khác nhau, không những thế, một số loại giải thuật có thể cho ra nhiều kết quả của cùng một tác vụ.

Ví dụ, bạn có thể dùng giải thuật cây quyết định không chỉ để dự đoán mà còn nhằm mục đích giảm số lượng cột trong tập dữ liệu, bởi vì cây quyết định có thể xác định các cột thuộc tính dữ liệu không có tác dụng trong mô hình khai thác dữ liệu.

Một vấn đề khác là bạn không sử dụng giải thuật một cách độc lập. Trong một mô hình khai thác dữ liệu đơn nhất, bạn có thể sử dụng nhiều giải thuật kết hợp với nhau, một số giải thuật hỗ trợ trong việc khai thác dữ liệu, một số giải thuật khác hỗ trợ việc dự đoán kết quả dựa trên tập dữ liệu hiện có. Ví dụ, ta có thể dùng giải thuật Clustering để nhận dạng các mẫu dữ liệu, phân loại dữ liệu thành các nhóm, sau đó sử dụng kết quả để xây dựng mô hình khai thác dữ liệu tốt hơn với giải thuật cây quyết định.

Ngoài ra, ta có thể sử dụng nhiều giải thuật trong cùng một dự án để thực hiện một số tác vụ, ví dụ dùng giải thuật truy hồi đệ qui để thể hiện các thông tin tài chính và dự đoán kinh doanh, và giải thuật dựa trên các luật để thực hiện việc phân tích giỏ hàng sản phẩm.

Mục tiêu của mô hình khai thác dữ liệu là khả năng dự đoán, đưa ra các thông tin thống kê, tổng kết và tìm kiếm sự tương quan ẩn. Bảng mô tả dưới đây trình bày sự phân loại các giải thuật vào một số chức năng tác vụ đặc trưng.

 

Tác vụ đặc trưng

Giải thuật sử dụng

Dự đoán các giá trị thuộc tính có tính riêng biệt
Ví dụ: Dự đoán người nhận mail có khả năng mua sản phẩm trong một chiến dịch gửi mail PR

  • Microsoft Decision Tree Algorithm
  • Microsoft Naïve Bayes Algorithm
  • Microsoft Clustering Algorithm
  • Microsoft Neural Network Algorithm

Dự đoán các thuộc tính có tính liên tục
Ví dụ: Dự đoán hoạt động bán hàng các năm tới

  • Microsoft Decision Tree Algorithm
  • Microsoft Time Series Algorithm

Dự đoán chuỗi các tác vụ

Ví dụ: Phân tích chuỗi các hoạt động của người dùng trên Website

  • Microsoft Sequence Clustering Algorithm

Tìm kiếm nhóm các đối tượng trong giao tác hiện thực

Ví dụ: Phân tích giỏ hàng để tiến hành tư vấn, đề nghi cho khách hàng

  • Microsoft Association Algorithm
  • Microsoft Decision Tree Algorithm

Tìm kiếm các nhóm đối tượng tương tự nhau

Ví dụ: Phân đoạn dữ liệu thành các nhóm để nắm rõ hơn mối quan hệ giữa các thuộc tính.

· Microsoft Clustering Algorithm

· Microsoft Sequence Clustering Algorithm

Tài liệu tham khảo: http://msdn.microsoft.com

Advertisements
Categories: SQL Server Tags: , ,
  1. No comments yet.
  1. No trackbacks yet.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: