Машин сургалтын алгоритмууд өгөгдлийг зөвхөн тоогоор ойлгодог. Гэвч бидний амьдрал дахь мэдээлэл ихэнхдээ текст, нэр, категори хэлбэртэй байдаг. Эдгээрийг машин ойлгодог тоон мэдээлэл болгож хувиргах шаардлагатай бөгөөд үүнийг хийх хамгийн түгээмэл хоёр арга нь Label Encoding болон One-Hot Encoding юм.

Label Encoding гэж юу вэ?
Label Encoding гэдэг нь өгөгдлийн категори тус бүрд нэг тоо оноож өгдөг энгийн арга юм. Жишээ нь “улаан, цэнхэр, ногоон” гэсэн гурван өнгийг Label Encoding ашиглан 0, 1, 2 гэж кодлож болно. Энэ арга нь их хэмжээний категориудыг хялбар, хурдан хөрвүүлэхэд тохиромжтой боловч сул тал нь категориудын хооронд хуурамч эрэмбэ үүсгэх магадлалтай байдаг. Тухайлбал, машин “2”-ыг “0”-ээс их гэсэн утгаар хүлээн авч болох юм.

One-Hot Encoding гэж юу вэ?
One-Hot Encoding нь категори тус бүрийг шинээр багана болгон үүсгэж, тухайн мөрөнд хамаарах категори нь 1, бусад нь 0 гэсэн утгыг өгдөг. Жишээлбэл, өмнөх жишээг One-Hot Encoding аргаар кодлохдоо “улаан, цэнхэр, ногоон” тус бүрд гурван шинэ багана үүсгэж, “улаан” өнгийн утгыг [1, 0, 0] гэж кодлох юм. Энэ арга нь ангиллын өгөгдөлд эрэмбийн алдаа үүсгэхгүй боловч категориуд олширвол баганын тоо нэмэгдэж, өгөгдлийн хэмжээ ихэсдэг сул талтай.

Ямар үед аль аргыг ашиглах вэ?
- Label Encoding: Ангилал олон бөгөөд дараалал, эрэмбэтэй өгөгдөлд тохиромжтой (жишээ нь: боловсролын түвшин, зээлийн оноо).
- One-Hot Encoding: Ангилал цөөн бөгөөд дараалал, эрэмбэгүй өгөгдөлд хамгийн оновчтой (жишээ нь: өнгө, хотын нэрс).
Түүнчлэн, шийдвэрийн мод (Decision Tree), санамсаргүй ой (Random Forest) зэрэг модон загваруудад Label Encoding тохиромжтой байдаг бол нейрон сүлжээ (Neural Networks), логистик регресс (Logistic Regression) зэрэгт One-Hot Encoding илүү оновчтой ажилладаг.

Практик жишээ
Жишээлбэл, таны өгөгдөлд футболкний хэмжээ гэсэн категори өгөгдөл байлаа гэж бодъё. Энэ нь XS, S, M, L, XL гэх мэт дараалалтай ангиллууд тул Label Encoding ашиглаж XS=0, S=1, M=2, L=3, XL=4 гэх мэтээр илэрхийлж болно. Харин бүтээгдэхүүний төрөл (жишээ нь футболк, өмд, гутал) зэрэг эрэмбэгүй категори мэдээлэлд One-Hot Encoding ашиглаж футболк=[1,0,0], өмд=[0,1,0], гутал=[0,0,1] гэж кодлох нь оновчтой юм.
Дүгнэлт
Label Encoding болон One-Hot Encoding нь категори мэдээллийг машинд ойлгомжтой болгож өгөх хоёр чухал арга юм. Таны өгөгдлийн төрлөөс хамаарч зөв аргыг сонгох нь машин сургалтын үр дүнг сайжруулах үндсэн түлхүүр болно.