Mixture of Experts (MoE) нь машин сургалтын загваруудын нэг төрөл бөгөөд өндөр гүйцэтгэл, үр ашгийг хангах зорилгоор олон жижиг хэсэгчилсэн загваруудыг (experts) нэгтгэн ашигладаг архитектур юм. Энэ загвар нь том хэмжээний нейроны сүлжээнүүдийн тооцооллын зардлыг бууруулж, тодорхой даалгаварт илүү сайн тохируулан ажиллах боломжийг олгодог.
MoE загвар нь дараах гол бүрэлдэхүүн хэсгүүдээс тогтоно:
Экспертүүд (Experts): Эдгээр нь бие даасан жижиг нейроны сүлжээнүүд бөгөөд тус бүр нь өгөгдлийн тодорхой хэсэг буюу даалгаварт мэргэшсэн байдаг. Жишээ нь, нэг эксперт нь текст, нөгөө нь зураг боловсруулах чиглэлээр ажиллаж болно.
Хаалга (Gate): Хаалга буюу “routing” механизм нь өгөгдлийг ямар эксперт рүү илгээхээ шийддэг. Энэ нь ихэвчлэн softmax функцийн тусламжтайгаар өгөгдлийн онцлогт тохируулан экспертүүдийг сонгоно.
Нэгтгэх механизм: Экспертүүдийн гаралтыг нэгтгэж, эцсийн хариуг гаргадаг.
MoE-ийн гол давуу тал нь зөвхөн шаардлагатай экспертүүдийг идэвхжүүлснээр тооцооллын зардлыг бууруулж, загварын хэмжээг өсгөх боломжтой байдаг.
Техникийн хэрэгжүүлэлт
Жишээ нь өгүүлбэрийн өөр өөр хэсгүүдэд өөр өөр дүн шинжилгээ хийх шаардлагатай болох буюу хэлц үгийн утгыг ойлгох эксперт, дүрмүүдийг ойлгох эксперт гэх мэт нэг биш, олон эксперт хэрэг болох үед яах вэ?
1. Sparse Activation
MoE-ийн гол онцлог нь sparse activation буюу сийрэг идэвхжүүлэлт юм. Энэ нь бүх мэргэжилтнүүдийг хамтад нь идэвхжүүлэхгүйгээр зөвхөн хамгийн тохиромжтой хэдэн мэргэжилтнийг л сонгон ашигладаг.
2.Load Balancing
MoE системийн нэгэн чухал асуудал бол ачаалал тэнцвэржүүлэлт юм. Зарим экспертүүд хэт их ачаалалтай болж, бусад нь огт ашиглагдахгүй байх магадлалтай. Үүнийг шийдэхээр тусгай алгоритмууд хөгжүүлэгдсэн.
MoE Paper: https://arxiv.org/pdf/2407.06204
Практик хэрэглээ
1. Хэл боловсруулалт
- Google-ийн PaLM мodel
- OpenAI-ийн GPT-4 (MoE элементүүдтэй)
- Switch Transformer
2. Компьютер хараа
- Зураг таних системүүд
- Видео боловсруулалт
3. Multimodal
- Текст, зураг, дуу хоолойг хамтад нь боловсруулах системүүд
MoE Хэрэгжүүлэх Нээлттэй Модел
Mixtral 8x7B – Mistral AI
Mixtral 8x7B нь Apache 2.0 лицензтэй, Llama 2 70B-ээс 6 дахин хурдан, GPT-3.5-тэй адилхан гүйцэтгэлтэй
Онцлог:
- 8 эксперт× 7B параметр
- 32k token контекст
- 5 хэл дэмжинэ (англи, франц, итали, герман, испани)
- Зөвхөн 2 мэргэжилтэн идэвхжинэ(top-k)
Хайлт
Категори
- 1 минутын уншлага (335)
- 2 минутын уншлага (195)
- AI (23)
- Machine Learning (10)
- Algorithm (13)
- Bиртуалчлал (1)
- Competitive programming (22)
- CodeX (2)
- computer science (19)
- ide (1)
- Аюулгүй Байдал (4) (6)
- боловсрол (134)
- Зөвлөгөө (74)
- Инженерчлэл ба Технологийн Системүүд (2) (25)
- Код (89)
- Богино прожектууд (12)
- Зөвлөгөө (41)
- Компьютерын Шинжлэх Ухаан ба Програмчлал (1) (37)
- Крипто (18)
- Математик (7)
- Өгөгдөл ба Хиймэл Оюун Ухаан (3) (16)
- Систем (1)
- Сурагчдад (7)
- Тархи ба Код (8)
- Технологи, Нийгэм ба Боловсрол (5) (34)
- Технологийн түүх (12)
- Тоглоом хөгжүүлэлт (3)
- Хөндлөнгийн (28)
- Электроник (5)
- Робот (1)