Aja Dadi Panyimpenan Dadi Bottleneck Kunci ing Pelatihan Model

Wis ujar manawa perusahaan teknologi ngupayakake GPU utawa ing dalan kanggo entuk. Ing wulan April, CEO Tesla Elon Musk tuku 10,000 GPU lan nyatakake yen perusahaan bakal terus tuku GPU sing akeh saka NVIDIA. Ing sisih perusahaan, personel IT uga ngupayakake supaya GPU terus digunakake kanggo nggedhekake investasi. Nanging, sawetara perusahaan bisa nemokake manawa jumlah GPU saya tambah, idleness GPU dadi luwih abot.

Yen sejarah wis mulang babagan apa wae babagan komputasi kinerja dhuwur (HPC), mula panyimpenan lan jaringan ora kudu dikorbanake kanthi fokus banget ing komputasi. Yen panyimpenan ora bisa mindhah data kanthi efisien menyang unit komputasi, sanajan sampeyan duwe GPU paling akeh ing donya, sampeyan ora bakal entuk efisiensi sing optimal.

Miturut Mike Matchett, analis ing Small World Big Data, model cilik bisa dieksekusi ing memori (RAM), ngidini luwih fokus ing komputasi. Nanging, model sing luwih gedhe kaya ChatGPT kanthi milyaran simpul ora bisa disimpen ing memori amarga biaya sing dhuwur.

"Sampeyan ora bisa pas karo milyaran simpul ing memori, supaya panyimpenan dadi luwih penting," ujare Matchett. Sayange, panyimpenan data asring diabaikan sajrone proses perencanaan.

Umumé, preduli saka kasus panggunaan, ana papat titik umum ing proses latihan model:

1. Pelatihan Model
2. Aplikasi Inferensi
3. Panyimpenan data
4. Accelerated Computing

Nalika nggawe lan nyebarake model, umume syarat menehi prioritas konsep bukti cepet (POC) utawa lingkungan uji coba kanggo miwiti latihan model, kanthi panyimpenan data ora kudu dipikirake.

Nanging, tantangan kasebut ana ing kasunyatan manawa latihan utawa panyebaran inferensi bisa nganti pirang-pirang wulan utawa malah taun. Akeh perusahaan kanthi cepet nggedhekake ukuran model ing wektu iki, lan infrastruktur kudu nggedhekake kanggo nampung model lan set data sing akeh.

Riset saka Google babagan mayuta-yuta beban kerja latihan ML nuduhake manawa rata-rata 30% wektu latihan digunakake kanggo pipa data input. Nalika riset kepungkur wis fokus ing ngoptimalake GPU kanggo nyepetake latihan, isih akeh tantangan kanggo ngoptimalake macem-macem bagean pipa data. Yen sampeyan duwe daya komputasi sing signifikan, bottleneck nyata dadi sepira cepet sampeyan bisa feed data menyang komputasi kanggo entuk asil.

Khususé, tantangan ing panyimpenan lan manajemen data mbutuhake perencanaan kanggo tuwuhing data, supaya sampeyan bisa terus-terusan ngekstrak nilai data nalika sampeyan maju, utamane nalika sampeyan ngupayakake kasus panggunaan sing luwih maju kayata sinau jero lan jaringan saraf, sing mbutuhake panjaluk sing luwih dhuwur. panyimpenan ing babagan kapasitas, kinerja, lan skalabilitas.

utamané:

Skalabilitas
Machine learning mbutuhake nangani akeh data, lan nalika volume data mundhak, akurasi model uga nambah. Iki tegese bisnis kudu ngumpulake lan nyimpen luwih akeh data saben dina. Nalika panyimpenan ora bisa skala, beban kerja sing intensif data nggawe kemacetan, mbatesi kinerja lan nyebabake wektu nganggur GPU sing larang.

Fleksibilitas
Dhukungan fleksibel kanggo macem-macem protokol (kalebu NFS, SMB, HTTP, FTP, HDFS, lan S3) perlu kanggo nyukupi kabutuhan sistem sing beda-beda, tinimbang diwatesi ing siji jinis lingkungan.

Latensi
Latensi I/O kritis kanggo mbangun lan nggunakake model amarga data diwaca lan diwaca kaping pirang-pirang. Ngurangi latensi I/O bisa nyepetake wektu latihan model kanthi dina utawa sasi. Pangembangan model sing luwih cepet langsung nerjemahake keuntungan bisnis sing luwih gedhe.

Throughput
Sistem panyimpenan penting kanggo latihan model sing efisien. Proses latihan kalebu akeh data, biasane ing terabyte saben jam.

Akses Paralel
Kanggo entuk throughput sing dhuwur, model latihan pamisah aktivitas dadi sawetara tugas paralel. Iki asring tegese algoritma machine learning ngakses file sing padha saka macem-macem proses (berpotensi ing sawetara server fisik) bebarengan. Sistem panyimpenan kudu nangani panjaluk bebarengan tanpa kompromi kinerja.

Kanthi kemampuan sing luar biasa ing latensi kurang, throughput dhuwur, lan I / O paralel skala gedhe, Dell PowerScale minangka pelengkap panyimpenan sing cocog kanggo komputasi akselerasi GPU. PowerScale kanthi efektif nyuda wektu sing dibutuhake kanggo model analisis sing nglatih lan nguji set data multi-terabyte. Ing panyimpenan kabeh-lampu kilat PowerScale, bandwidth mundhak 18 kaping, mbusak I / O bottlenecks, lan bisa ditambahake menyang klompok Isilon ana kanggo akselerasi lan mbukak kunci Nilai saka jumlah gedhe saka data unstructured.

Kajaba iku, kemampuan akses multi-protokol PowerScale nyedhiyakake keluwesan tanpa wates kanggo mbukak beban kerja, ngidini data bisa disimpen nggunakake protokol siji lan diakses nggunakake protokol liyane. Khusus, fitur kuat, keluwesan, skalabilitas, lan fungsionalitas kelas perusahaan saka platform PowerScale mbantu ngatasi tantangan ing ngisor iki:

- Nyepetake inovasi nganti 2,7 kaping, nyuda siklus latihan model.

- Ngilangi kemacetan I/O lan nyedhiyakake latihan lan validasi model sing luwih cepet, akurasi model sing luwih apik, produktivitas ilmu data sing luwih apik, lan ngasilake investasi komputasi maksimal kanthi nggunakake fitur kelas perusahaan, kinerja dhuwur, konkurensi, lan skalabilitas. Ningkatake akurasi model kanthi set data kanthi resolusi sing luwih jero, kanthi nggunakake kapasitas panyimpenan efektif nganti 119 PB ing kluster siji.

- Entuk panyebaran kanthi skala kanthi miwiti komputasi lan panyimpenan skala cilik lan mandiri, menehi pilihan proteksi lan keamanan data sing kuat.

- Ningkatake produktivitas ilmu data kanthi analitik ing papan lan solusi sing wis divalidasi kanggo panyebaran luwih cepet lan beresiko rendah.

- Nggunakake desain sing wis kabukten adhedhasar teknologi paling apik, kalebu akselerasi GPU NVIDIA lan arsitektur referensi kanthi sistem NVIDIA DGX. Kinerja dhuwur lan konkurensi PowerScale nyukupi syarat kinerja panyimpenan ing saben tahap pembelajaran mesin, saka akuisisi lan persiapan data nganti latihan model lan inferensi. Bebarengan karo sistem operasi OneFS, kabeh simpul bisa mlaku kanthi lancar ing kluster sing didorong OneFS sing padha, kanthi fitur tingkat perusahaan kayata manajemen kinerja, manajemen data, keamanan, lan proteksi data, supaya luwih cepet rampung latihan model lan validasi kanggo bisnis.


Wektu kirim: Jul-03-2023