fbpx

Өгөгдлийн инженерүүд болон Data Scientist-уудын хамгийн том “толгойны өвчин” юу вэ? Мэдээж хүлээлт.

Та хэдэн терабайт өгөгдөл боловсруулах гээд query гүйлгэчихээд, кофе ууж, цайны цаг дуусгаад, магадгүй бүтэн өдөр хүлээдэг үе бидэнд байсан. “Энэ загвар сургаж дуусахыг хүлээвэл тэтгэвэрт гарах нь ээ” гэж хошигнодог нь ч оргүй биш. Гэтэл энэ бүхнийг орвонгоор нь өөрчлөх нэгэн “мангас” гарч ирсэн нь NVIDIA DGX болон Apache Spark-ийн хослол юм.

CPU-ээс GPU рүү хийсэн үсрэлт

Бид олон жилийн турш Apache Spark-ийг энгийн компьютерын процессор (CPU) дээр ажиллуулж ирсэн. Энэ нь муу биш л дээ, яг л хөдөөний замаар найдвартай явдаг жийп машин шиг. Гэхдээ өгөгдлийн хэмжээ хэд дахин өсөж, AI загварууд улам нарийн төвөгтэй болох үед тэр жийп маань “амьсгаадаж” эхэлсэн.

Харин NVIDIA DGX систем бол зүгээр нэг компьютер биш. Энэ бол хэдэн зуун CPU-тэй тэнцэхүйц хүчин чадалтай супер компьютер буюу GPU-ийн цуглуулга юм.

Төсөөлөөд үз дээ:

  • Өмнө нь: Та 1000 тоосгыг нэг нэгээр нь зөөдөг байсан (Serial processing).
  • DGX Spark-тай: Та 1000 тоосгыг нэгэн зэрэг, ганцхан хоромд зөөчихөж байна (Parallel processing)

Яагаад “Spark” дахин амилав?

Apache Spark бол өгөгдөл боловсруулалтын хаан. Гэхдээ NVIDIA-ийн баг үүнийг улам сайжруулж, RAPIDS гэх хурдасгуур номын санг ашиглан Spark-ийг GPU дээр ажилладаг болгочихсон.

Энэ хослолын хамгийн гайхалтай, яг л шидтэн мэт хэсэг нь юу гээч?

Та кодоо өөрчлөх шаардлагагүй!

Тийм ээ, та хуучин бичсэн Python, Scala кодоо шууд аваад DGX систем дээр ажиллуулахад л хангалттай. Үр дүн нь? Зарим тохиолдолд 50-аас 100 дахин хурдан. Өмнө нь 8 цаг болдог байсан ажил одоо 10-хан минутад дуусна гэсэн үг. Энэ бол зүгээр нэг цаг хэмнэлт биш, энэ бол бизнесийн боломж.

Хэнд хэрэгтэй вэ?

Энэ нь зөвхөн IT-ийнхны тоглоом биш ээ.

  • Банкууд: Гүйлгээний луйврыг (Fraud detection) секунд ч алдалгүй илрүүлэхэд.
  • Эрүүл мэнд: Геномын судалгааг хэдэн сараар биш, хэдхэн цагт хийхэд.
  • Ритейл: Хэрэглэгчийн зан төлөвийг тэр дор нь таамаглахад.

Дүгнэлт

DGX Spark-ийн хослол бол өгөгдлийн шинжлэх ухаанд гарсан хувьсгал юм. Бид одоо “Яаж тооцоолох вэ?” гэж санаа зовохоо больж, “Энэ их хурдыг ашиглаад өөр ямар шинэ зүйл бүтээх вэ?” гэж бодох цаг иржээ.

Хэрвээ танд өгөгдөл байгаа бол, түүнийг хүлээж суух хэрэггүй. Түүнийг нисгэх цаг нь болсон!


Танд энэ нийтлэл таалагдсан уу? Би танд зориулж дараах зүйлсийн аль нэгийг хийж чадна:

DGX болон Spark хоёрын техникийн ялгааг харуулсан харьцуулсан хүснэгт гаргах.

Энэ сэдвийн дагуу LinkedIn эсвэл Facebook дээр постолж болох богино хувилбарыг бэлдэх.

Leave a Reply