Trích chọn đặc trưng
Trong học máy và thống kê, trích chọn đặc trưng (hay còn gọi bằng nhiều cụm từ như trích chọn đặc tính, lựa chọn đặc trưng, lựa chọn thuộc tính, chọn lựa thuộc tính, chọn lọc đặc trưng, tiếng Anh: feature selection, có thể là variable selection, attribute selection hay variable subset selection), là một quá trình chọn lọc một tập con chứa các thuộc tính liên quan để sử dụng trong quá trình xây dựng mô hình. Các kỹ thuật trích chọn đặc trưng được dùng cho một số lý do:
- đơn giản hóa các mô hình để giúp các nhà nghiên cứu/người dùng diễn dịch dễ dàng hơn,[1]
- giảm thời gian huấn luyện,
- tránh lời nguyền chiều (curse of dimensionality),
- tăng cường tổng quát hóa bằng cách giảm sự quá khớp[2] (chính thức, giảm phương sai[1])
Xem thêm
sửa- Phân tích cụm
- Khai phá dữ liệu
- Giảm chiều dữ liệu
- Trích xuất đặc trưng (trích rút đặc trưng)
- Tối ưu hóa siêu tham số
- Lựa chọn mô hình (model selection)
- Relief (trích chọn đặc trưng)
Tham khảo
sửa- ^ a b Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). An Introduction to Statistical Learning. Springer. tr. 204. Bản gốc lưu trữ ngày 23 tháng 6 năm 2019. Truy cập ngày 20 tháng 11 năm 2020.
- ^ Bermingham, Mairead L.; Pong-Wong, Ricardo; Spiliopoulou, Athina; Hayward, Caroline; Rudan, Igor; Campbell, Harry; Wright, Alan F.; Wilson, James F.; Agakov, Felix; Navarro, Pau; Haley, Chris S. (2015). “Application of high-dimensional feature selection: evaluation for genomic prediction in man”. Scientific Reports. 5: 10312. Bibcode:2015NatSR...510312B. doi:10.1038/srep10312. PMC 4437376. PMID 25988841.
Đọc thêm
sửa- Guyon, Isabelle; Elisseeff, Andre (2003). “An Introduction to Variable and Feature Selection”. Journal of Machine Learning Research. 3: 1157–1182.
- Harrell, F. (2001). Regression Modeling Strategies. Springer. ISBN 0-387-95232-2.
- Liu, Huan; Motoda, Hiroshi (1998). Feature Selection for Knowledge Discovery and Data Mining. Springer. ISBN 0-7923-8198-X.
Liên kết ngoài
sửa- Feature Selection Package, Arizona State University (Matlab Code)
- NIPS challenge 2003 (see also Conference on Neural Information Processing Systems)
- Naive Bayes implementation with feature selection in Visual Basic Lưu trữ 2009-02-14 tại Wayback Machine (includes executable and source code)
- Minimum-redundancy-maximum-relevance (mRMR) feature selection program
- FEAST (Open source Feature Selection algorithms in C and MATLAB)