fbpx

Ensemble methods гэдэг нь машин сургалтын олон загварыг (models) нэгтгэж, ганц загвараас илүү нарийвчлалтай, тогтвортой үр дүн гаргах мөн ангиллын нарийвчлалыг сайжруулах техникүүд юм. Энгийнээр хэлбэл, “олны хүч оломгүй далай” гэсэн зарчим машин сургалт дээр хэрэгжиж байгаа хэлбэр гэж ойлгож болно.

Ensemble аргуудыг ерөнхийд нь:

  • Bagging
  • Boosting
  • Random Forest
    гэж ангилдаг бөгөөд эдгээрээс Boosting нь алдаанд суурилан суралцдаг гэдгээрээ ялгарна.

1. Bagging (Bootstrap Aggregating)

Bagging нь нэг төрлийн загварыг олон удаа, өөр өөр өгөгдлийн дэд хэсгүүд дээр сургаад, гарсан үр дүнг дундажлах (эсвэл санал хураах) аргаар нэгтгэдэг техник юм.

Яаж ажилладаг вэ?

  • Анхны өгөгдлөөс давхардалтайгаар санамсаргүй түүвэр (bootstrap sample) авна
  • Тус бүр дээр ижил төрлийн загвар сургана
  • Эцсийн үр дүнг дундаж эсвэл majority vote-оор гаргана

Ямар асуудлыг шийддэг вэ?

  • Overfitting-ийг багасгана
  • Өгөгдөлд мэдрэмтгий (high variance) загваруудын тогтвортой байдлыг сайжруулна
  • Bagging нь variance өндөртэй (жишээ нь decision tree) загваруудын хэлбэлзлийг багасгаж, тогтвортой байдлыг сайжруулдаг.
  • Ангиллын үед → олонхын санал (majority voting)
  • Регрессийн үед → дундаж утга ашиглан үр дүнг нэгтгэнэ.

Түлхүү хэрэглэдэг загвар: Decision Tree

2. Boosting

Boosting нь сул загваруудыг дарааллаар нь сургаж, өмнөх загварын алдаанд илүү анхаарал өгч дараагийн загварыг сайжруулдаг техник юм. Өөрөөр хэлбэл “Алдаа гаргасан өгөгдлөөс илүү сайн сурах” гэсэн зарчимд тулгуурладаг.

Яаж ажилладаг вэ?

  • Эхний загвар өгөгдлийг энгийн байдлаар сурна.
  • Буруу таамаглагдсан өгөгдөлд их жин өгнө.
  • Дараагийн загвар өмнөхийн алдааг засахыг оролдоно.
  • Бүх загварын жинтэй нийлбэрийг ашиглан эцсийн үр дүн гаргана.

Ямар асуудлыг шийддэг вэ?

  • Bias (хэт энгийн загварын алдаа)-ийг багасгана.
  • Хэцүү өгөгдлийг илүү сайн сурдаг.

3. Random Forest

Random Forest нь bagging-ийн сайжруулсан хувилбар бөгөөд олон decision tree-г санамсаргүй байдлаар сургаж, үр дүнг нь нэгтгэдэг ensemble арга юм.

Яаж ажилладаг вэ?

  • Олон bootstrap өгөгдөл үүсгэнэ
  • Decision tree бүрт feature-үүдийг санамсаргүйгээр сонгож хуваалт хийнэ
  • Бүх модны саналын дүнд үндэслэн эцсийн таамаг гаргана

Ямар асуудлыг шийддэг вэ?

  • Overfitting бага
  • Өндөр нарийвчлалтай
  • Feature importance-ийг харуулж чадна

4 . Дүгнэлт

Bagging, Boosting, Random Forest нь тус бүр өөр өөр зарчимтай боловч олон загварыг нэгтгэх гэсэн нэг зорилготой Ensemble аргууд юм. Bagging нь тогтвортой байдлыг, Boosting нь нарийвчлалыг, Random Forest нь хоёрын тэнцвэрийг хамгийн сайн хангадаг. Иймээс бодит асуудалд өгөгдлийн онцлогт тохируулан эдгээр аргуудыг зөв сонгох нь чухал юм.


Leave a Reply