Хэлний загварууд нь машин орчуулга, яриа таних, бичвэр үүсгэх зэрэг олон эх хэл боловсруулах (NLP) хэрэглээнд өргөн ашиглагддаг. Эдгээр загварын хамгийн энгийн бөгөөд өргөн хэрэглэгддэг хувилбар бол Bigram загвар юм.

Bigram загвар гэдэг нь хоёр үгийн дарааллын магадлалыг тооцоолдог хэлний загвар юм. Өөрөөр хэлбэл, тухайн үгийг өмнөх үгтэй нь хамт авч үзэн дараагийн үгийн магадлалыг тодорхойлдог.
Жишээ нь “Би ном уншиж байна” гэсэн өгүүлбэр дээр Bigram загварыг хэрэглэвэл дараах магадлалуудыг тооцно:
P(“ном” | “Би”)
P(“уншиж” | “ном”)
P(“байна” | “уншиж”)
Жишээ Python код:
Нэрнүүд агуулсан 32 мянган дата дээр авч үзвэл:

Дээрх дата доторх биграмыг python толь бичигт ашиглан тоолж, хамгийн их давтагдсан 5 bigram-ыг харахад “n” үсгийн дараа үг төгссөн тохиолдол хамгийн их харагдаж байна.

Дээрх үр дүнг Tensor-уудыг ашиглан дүрсэлж илүү ойлгомжтой байдлаар харж болно. an = 5438
→ “an” гэсэн хослол 5438 удаа тохиолдсон.
Хар хөх/тод цэнхэр: өндөр давтамж (их ашиглагддаг хослолууд)
Цайвар цэнхэр эсвэл цагаан: бага давтамж эсвэл огт байхгүй хослол

Bigram-ийн хослолуудын магадлалыг тооцоолж, PyTorch -ийн Generator ашиглан давталтаар 30 ширхэг текст мөр (sequence) үүсгэж байна.
Үг үүсгэх процесс нь
<S>
(эхлэл тэмдэг) үсгээс эхэлж, bigram магадлал дээр үндэслэн дараагийн үсгийг сонгож,<E>
(төгсгөл тэмдэг) ирэхэд зогсоно.

Ийм байдлаар bigram дээр тулгуурлан “жинхэнэ нэр” мэт уншигдах үгсийг үүсгэж болно.

Хайлт
Категори
Категори
- 1 минутын уншлага (369)
- 2 минутын уншлага (217)
- AI (13)
- Algorithm (7)
- CodeX (2)
- Competitive programming (18)
- computer science (7)
- Machine Learning (4)
- Богино прожектууд (15)
- боловсрол (131)
- Зөвлөгөө (64)
- Зөвлөгөө (74)
- Код (64)
- Крипто (14)
- Математик (2)
- Тархи ба Код (6)
- Технологийн түүх (3)
- Хөндлөнгийн (28)
Шинэ бичвэрүүд

DFS vs BFS: Гүн чухал уу? Өр 2025-06-18

Компьютерийн хамгийн 2025-06-16
