Өнөө үед бидний хэрэглэдэг цахим мэдээлэл, хариу үйлдэл, мэдээлэл дамжуулалт бүрт их хэмжээний текст бий. Текстийн шинжилгээ хийх нь хүний үг, өгүүлбэр, тодорхойлж буй утгыг компьютерт ойлгуулан, утга агуулсан мэдээлэлд хүрэх гол арга зам юм. Машин сургалт, хиймэл оюун ухаан (AI)-ийн хөгжилтэй холбоотойгоор текстийн анализын техникүүд мөн өөрчлөгдөж байна. Үүний нэг чухал хэсэг нь N-gram ашиглан үгсийн хоорондын харилцан хамаарлыг тодорхойлох явдал юм.
1. N-gram-н талаар товчхондоо
N-gram гэдэг нь текстийн тодорхой хэсгүүдийг (гэхдээ зөвхөн үгсийг) нэгтгэн, дараалалд нь ашиглах арга юм. Тухайлбал, unigram (1-gram) гэдэг нь нэг үгийг, bigram (2-gram) хоёр үгийн хослол, харин trigram (3-gram) гурван үгийн хослолыг илэрхийлнэ. Эдгээр N-gram-ыг ашиглан бид үгийн дараалал, хамаарлыг судлах, урьдчилан таамаглах, болон текстийн анализ хийх боломжтой.
Жишээ:

N-gram ашиглан текстийн үгсийн хамаарлыг тодорхойлж, үгсийн хоорондын харилцан хамаарлыг олж илрүүлэхэд ашигладаг.
2. Үгний хамаарлыг олж илрүүлэхэд N-gram хэрхэн ашиглагддаг вэ?
N-gram нь үгийн харилцан хамаарлыг илрүүлэхэд ашиглагдах маш энгийн, гэхдээ хүчирхэг арга юм. Текстийн бүх үгсийг хослол (bigram, trigram) болон суурь үгс (unigrams) болгон ангилж, тэдгээрийн давтамж болон хамаарлыг судалж болно.
Тайлбар:
- Bigram analysis: Текстийн өөрчлөлт, үгсийн хэрэглээг хоёр хосоор задлан шинжилж, эдгээр үгс нэгэн зэрэг хэрхэн ашиглагдаж буйг илрүүлнэ. Жишээ нь, “машин сургалт” гэдэг хоёр үгийн хослол нь ихэвчлэн хамт хэрэглэгддэг бол энэ хоёр үгний хооронд эерэг хамаарал үүсч байна гэж үзнэ.
- Trigram analysis: Гурван үгийн дараалал буюу trigram нь текстийн агуулгыг илүү нарийн тодорхойлоход тусална. Жишээ нь, “машин сургалт боломж олгоно” гэдэг гурван үгийн дараалал нь хэрэглэгчийн амьдралд хамаарах цогц ойлголт болж хувирна.
Энэхүү N-gram шинжилгээ нь текст дэх холбоо, хамаарлыг сайн илрүүлж, эдгээр үгийн дарааллын үндсэн мэдрэмжийг ойлгоход тусалдаг.

3. N-gram-ийн ашиглалт ба хэрэглээ
N-gram-ийг олон төрлийн текстийн шинжилгээнд ашиглах боломжтой бөгөөд гол ашиглалт нь текстийн урсгал таамаглах, үзэгдлийн тухай урьдчилсан мэдээ боловсруулах, тухайн үгсийн тохирох хамаарлыг ойлгох зэрэг байдаг.
Жишээ ашиглалт:
- Автомат үг таамаглах: N-gram-ийн тусламжтайгаар текстийн дараагийн үгийг урьдчилан таамаглах боломжтой. Жишээ нь, “машин сургалт” гэсэн хоёр үгийн дараалалтай текстээс дараагийн үг юу байж болохыг таамаглаж болно, тухайлбал “боломж”, “систем”, “бүтээгдэхүүн”.
- Үгсийн хамаарлын анализ: Өгүүлбэр эсвэл текстийн нарийн агуулгыг илрүүлэхийн тулд хоёр болон гурван үгийн хослол ашиглан тухайн текстийн агуулга хэр зэрэг ойр байгааг ойлгоно.
- Спам илрүүлэлт: N-gram ашиглан текстийн спам, эсвэл хуурамч имэйлийг илрүүлэх боломжтой. Спам илрүүлэгч систем нь тодорхой N-gram хослолуудыг хайж, энэ нь хуурамч эсвэл зорилготой мессеж болохыг ойлгож чаддаг.

4. N-gram-ийг хэрхэн хэрэгжүүлэх вэ?
N-gram нь текстийн үгсийн дараалал, хамаарлыг судлахад ашиглагддаг арга билээ. Энгийнээр, бид N-gram ашиглан үгсийн хослолуудыг гаргаж, үгсийн дарааллыг тооцож, дараагийн үгийг таамаглах боломжтой. Доор python NLTK санг ашиглан дараагийн үгийг таамаглах боломжтой жишээг харууллаа.

5. Дүгнэлт
N-gram нь текстийн боловсруулалтыг илүү хялбаршуулж, үгсийн хамаарлыг ойлгоход чухал үүрэг гүйцэтгэдэг. Текстийн агуулгыг нарийвчлан судлах, үгийн дарааллын таамаглал хийх, спам илрүүлэлт гэх мэт олон төрлийн хэрэглээнд N-gram ашиглах боломжтой. Энэ нь хүн төрөлхтний мэдлэгийг компьютерт боловсруулах, ойлгуулах нэг үндсэн арга болж хувирсан байна.
Эх сурвалж
https://aiml.com/what-is-an-n-gram-model/
https://funnel.io/blog/n-gram-analysis
https://www.exploredatabase.com/2020/04/bigram-trigram-and-ngram-language-model-in-nlp.html
Холбоотой нийтлэл