Хэлний загварчлалын: Bigram Model

2025-06-07

Хэлний загварууд нь машин орчуулга, яриа таних, бичвэр үүсгэх зэрэг олон эх хэл боловсруулах (NLP) хэрэглээнд өргөн ашиглагддаг. Эдгээр загварын хамгийн энгийн бөгөөд өргөн хэрэглэгддэг хувилбар бол Bigram загвар юм.

Bigram загвар гэдэг нь хоёр үгийн дарааллын магадлалыг тооцоолдог хэлний загвар юм. Өөрөөр хэлбэл, тухайн үгийг өмнөх үгтэй нь хамт авч үзэн дараагийн үгийн магадлалыг тодорхойлдог.

Жишээ нь “Би ном уншиж байна” гэсэн өгүүлбэр дээр Bigram загварыг хэрэглэвэл дараах магадлалуудыг тооцно:

P(“ном” | “Би”)
P(“уншиж” | “ном”)
P(“байна” | “уншиж”)

Жишээ Python код:

Нэрнүүд агуулсан 32 мянган дата дээр авч үзвэл:

Дээрх дата доторх биграмыг python толь бичигт ашиглан тоолж, хамгийн их давтагдсан 5 bigram-ыг харахад “n” үсгийн дараа үг төгссөн тохиолдол хамгийн их харагдаж байна.

Дээрх үр дүнг Tensor-уудыг ашиглан дүрсэлж илүү ойлгомжтой байдлаар харж болно. an = 5438 → “an” гэсэн хослол 5438 удаа тохиолдсон.

Хар хөх/тод цэнхэр: өндөр давтамж (их ашиглагддаг хослолууд)
Цайвар цэнхэр эсвэл цагаан: бага давтамж эсвэл огт байхгүй хослол

Bigram-ийн хослолуудын магадлалыг тооцоолж, PyTorch -ийн Generator ашиглан давталтаар 30 ширхэг текст мөр (sequence) үүсгэж байна.

Үг үүсгэх процесс нь <S> (эхлэл тэмдэг) үсгээс эхэлж, bigram магадлал дээр үндэслэн дараагийн үсгийг сонгож, <E> (төгсгөл тэмдэг) ирэхэд зогсоно.

M	T	W	T	F	S	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Жишээ Python код:

Нэрнүүд агуулсан 32 мянган дата дээр авч үзвэл:

Ийм байдлаар bigram дээр тулгуурлан “жинхэнэ нэр” мэт уншигдах үгсийг үүсгэж болно.

Leave a Reply Cancel reply

Хайлт

Категори

Австралийн дижитал технологийн хөтөлбөртэй сургуулийн 2025-2026 оны элсэлт удахгүй хаагдах гэж байна.

Танд асуулт
байна уу?

Холбоо барих

Утас

Цагийн хуваарь

Хаяг

Хэрэгцээт холбоосууд

Ажилтнуудынхаа хүүхдүүдэд сургалт авах

Бага, дунд сургуулийнхаа хөтөлбөрийг баяжуулах

Ажилд орох

Speech recognition vs Voice recognition 2026-03-14

Decision Tree-ээс Random Forest хү� 2026-03-13

Хиймэл оюун ухааны тү� 2026-03-11

Хэлний загварчлалын: Bigram Model

Жишээ Python код:

Нэрнүүд агуулсан 32 мянган дата дээр авч үзвэл:

Ийм байдлаар bigram дээр тулгуурлан “жинхэнэ нэр” мэт уншигдах үгсийг үүсгэж болно.

Leave a Reply Cancel reply

Хайлт

Категори

Австралийн дижитал технологийн хөтөлбөртэй сургуулийн 2025-2026 оны элсэлт удахгүй хаагдах гэж байна.

Танд асуултбайна уу?

Холбоо барих

Утас

Цагийн хуваарь

Хаяг

Хэрэгцээт холбоосууд

Ажилтнуудынхаа хүүхдүүдэд сургалт авах

Бага, дунд сургуулийнхаа хөтөлбөрийг баяжуулах

Ажилд орох

Speech recognition vs Voice recognition 2026-03-14

Decision Tree-ээс Random Forest хү� 2026-03-13

Хиймэл оюун ухааны тү� 2026-03-11

Танд асуулт
байна уу?