“Энэ имэйл спам уу?, Хэрэглэгч зээлээ төлөх үү?”
Өдөр бүр ийм асуултад тулгуурласан тэрбум тэрбум шийдвэрүүд секундийн дотор хийгддэг. Таны имэйл, банкны систем, эмнэлгийн оношлогоо хүртэл бүгд хоёрхон сонголтын өмнө зогсдог. Энэ бүхний цаана нэг энгийн хэрнээ хүчтэй арга бий. Үүнийг Logistic Regression гэдэг.
Logistic Regression гэж юу вэ?
Logistic Regression нь ангиллын загвар юм. Тодруулбал, ямар нэг зүйл тодорхой ангилалд хамаарах магадлалыг тооцоолдог. Энэ загвар “тийм” эсвэл “үгүй” гэж шууд батлахгүй. Харин “тийм байх магадлал 73%” гэх мэтээр дүгнэлт гаргадаг. Энэ ялгаа нь бодит шийдвэр гаргалтад маш чухал.
Жишээ нь банк зээл олгох эсэхийг шийдэхдээ хэрэглэгчийн орлого, өмнөх зээлийн түүх, ажлын тогтвортой байдлыг харгалзан “энэ хүн зээлээ төлөх магадлал 82%” гэж тооцоолдог. Ингэснээр банк эрсдлээ илүү ухаалгаар удирдах боломжтой болдог.

Машин яаж ингэж бодож чаддаг вэ?
Logistic Regression-ийн ажиллагааг энгийнээр гурван алхмаар ойлгож болно. Эхлээд хүний тухай бүх мэдээллийг тоон хэлбэрт оруулна. Дараа нь эдгээр утгуудыг өөр өөр жингээр үнэлж нэгтгэнэ. Эцэст нь тусгай математик функцээр дамжуулж, үр дүнг 0-ээс 1-ийн хоорондох магадлал болгон хувиргана. Энэ функц нь sigmoid гэж нэрлэгддэг бөгөөд загварын гол “зүрх” юм.
Жишээ нь сарын орлого өндөр байвал эерэг оноо авна, хүсэж буй зээлийн хэмжээ хэт их байвал сөрөг оноо авна, өмнөх зээлийн түүх сайн бол дахин нэмэх оноо орно. Эдгээрийг нийлүүлээд sigmoid функцээр дамжуулахад, жишээ нь 71% гэсэн магадлал гарна. Энэ нь босго хэмжээнээс давсан тул “тийм” гэсэн шийдвэр гарна.

Яагаад магадлал ийм чухал вэ?
51% магадлалтай “тийм” болон 99% магадлалтай “тийм” гэдэг нь хоёулаа ижил шийдвэр мэт харагдаж болно. Гэвч итгэлцлийн түвшин огт өөр. Эмнэлгийн оношлогоонд өндөр магадлал зайлшгүй хэрэгтэй байхад, спам имэйл илрүүлэхэд харьцангуй бага магадлал ч хангалттай байдаг. Logistic Regression-ийн давуу тал нь энэ босгыг нөхцөл байдалд тохируулж өөрчилж болдогт оршино.
Мөн уг загвар тайлбарлах чадвартай. Яагаад ийм шийдвэр гарсныг хувьсагч тус бүрээр тайлбарлаж чадна. Энэ нь бизнес, санхүү, эмнэлгийн салбарт маш чухал давуу тал болдог.

Давуу болон хязгаарлалт
Logistic Regression нь хурдан, ойлгоход хялбар, хэрэгжүүлэхэд энгийн. Том өгөгдөл дээр ч үр ашигтай ажилладаг. Аль хувьсагч ямар нөлөө үзүүлж байгааг шууд харж болдгоороо онцлог. Иймээс бодит шийдвэр гаргах орчинд өргөн хэрэглэгддэг.
Гэхдээ энэ загвар зөвхөн шугаман хамаарлыг сайн барьж чадна. Хэрэв өгөгдөл маш нарийн, шугаман бус бүтэцтэй бол үр дүн муудна. Ийм үед нейрон сүлжээ зэрэг илүү нарийн загвар шаардлагатай болдог.
Дүгнэлт
Logistic Regression бол Machine Learning-ийн суурь атлаа хамгийн практик аргуудын нэг юм. Энэ загвар бодит ертөнцийн тодорхой бус байдлыг “тийм эсвэл үгүй” гэсэн магадлал болгон хувиргадаг. Бодит амьдралд төгс баталгаа гэж байдаггүй. Харин магадлалд суурилсан шийдвэр л хамгийн ойр, хамгийн бодит байдаг.