Trích chọn đặc trưng

Trong học máythống kê, trích chọn đặc trưng (hay còn gọi bằng nhiều cụm từ như trích chọn đặc tính, lựa chọn đặc trưng, lựa chọn thuộc tính, chọn lựa thuộc tính, chọn lọc đặc trưng, tiếng Anh: feature selection, có thể là variable selection, attribute selection hay variable subset selection), là một quá trình chọn lọc một tập con chứa các thuộc tính liên quan để sử dụng trong quá trình xây dựng mô hình. Các kỹ thuật trích chọn đặc trưng được dùng cho một số lý do:

  • đơn giản hóa các mô hình để giúp các nhà nghiên cứu/người dùng diễn dịch dễ dàng hơn,[1]
  • giảm thời gian huấn luyện,
  • tránh lời nguyền chiều (curse of dimensionality),
  • tăng cường tổng quát hóa bằng cách giảm sự quá khớp[2] (chính thức, giảm phương sai[1])

Xem thêm

sửa

Tham khảo

sửa
  1. ^ a b Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). An Introduction to Statistical Learning. Springer. tr. 204. Bản gốc lưu trữ ngày 23 tháng 6 năm 2019. Truy cập ngày 20 tháng 11 năm 2020.
  2. ^ Bermingham, Mairead L.; Pong-Wong, Ricardo; Spiliopoulou, Athina; Hayward, Caroline; Rudan, Igor; Campbell, Harry; Wright, Alan F.; Wilson, James F.; Agakov, Felix; Navarro, Pau; Haley, Chris S. (2015). “Application of high-dimensional feature selection: evaluation for genomic prediction in man”. Scientific Reports. 5: 10312. Bibcode:2015NatSR...510312B. doi:10.1038/srep10312. PMC 4437376. PMID 25988841.

Đọc thêm

sửa

Liên kết ngoài

sửa