Pendedahan: Artikel ini mengandungi pautan affiliate. Jika anda mendaftar melalui pautan kami, kami mungkin menerima komisyen kecil — tanpa sebarang kos tambahan kepada anda. Ini membantu kami terus menghasilkan panduan percuma dalam Bahasa Melayu.
NVIDIA NIM (NVIDIA Inference Microservices) adalah platform perkhidmatan mikro yang dioptimumkan untuk pelaksanaan model AI di atas perkakasan NVIDIA GPU. Dilancarkan sebagai sebahagian daripada NVIDIA AI Enterprise, NIM memudahkan proses deployment model AI generatif dalam persekitaran enterprise dengan prestasi yang dioptimumkan melalui teknologi TensorRT-LLM dan Triton Inference Server.
Bagi perniagaan Malaysia yang sedang merancang untuk melaksanakan AI generatif dalam infrastruktur mereka sendiri — sama ada on-premise, cloud hibrid, atau persekitaran yang dikawal ketat — NVIDIA NIM menawarkan penyelesaian yang tersedia dalam pasaran, mudah dikonfigurasikan, dan berkuasa tinggi.
Apa Itu NVIDIA NIM?
NVIDIA NIM ialah koleksi perkhidmatan mikro berasaskan kontena yang mengemas model AI generatif bersama tumpukan perisian pengoptimuman NVIDIA yang telah dikalibrasi. Setiap kontena NIM mengandungi:
- Model AI yang telah dioptimumkan (contohnya Llama 3, Mistral, Nemotron)
- TensorRT-LLM — enjin inferens GPU NVIDIA yang sangat pantas
- Triton Inference Server — platform pelayan inferens berprestasi tinggi
- API yang serasi dengan OpenAI untuk migrasi mudah dari perkhidmatan awan
Dengan NIM, perkara yang sebelum ini memerlukan pasukan jurutera AI yang berpengalaman kini boleh dilakukan oleh pasukan IT biasa dalam masa beberapa minit.
Kenapa NVIDIA NIM untuk Bisnes Malaysia?
Prestasi GPU yang Dioptimumkan Penuh
NIM bukan sekadar menjalankan model di atas GPU — ia mengoptimumkan model tersebut khusus untuk seni bina GPU NVIDIA yang anda gunakan. Sama ada anda menggunakan GPU NVIDIA A10G, A100, H100, atau siri GeForce terbaru, NIM secara automatik memilih profil optimasi terbaik.
Perbandingan prestasi yang tipikal: Menjalankan model Llama 3 70B menggunakan Ollama biasa pada GPU H100 boleh memberikan throughput sekitar 20-30 token sesaat. Dengan NIM yang menggunakan TensorRT-LLM, throughput yang sama boleh mencapai 100-150 token sesaat — peningkatan antara 3-5 kali ganda.
API yang Serasi dengan OpenAI
NIM menggunakan format API yang sama dengan OpenAI, bermakna aplikasi yang sudah menggunakan OpenAI GPT boleh beralih ke NIM dengan perubahan kod yang minima — hanya menukar URL dan kunci API. Ini mengurangkan risiko migrasi secara drastik.
Pematuhan dan Kawalan Data Enterprise
Perniagaan dalam industri yang dikawal selia — perbankan, penjagaan kesihatan, insurans — sering tidak boleh menghantar data ke awan awam. NIM boleh dijalankan sepenuhnya di dalam premis sendiri atau awan peribadi, memastikan data sentiasa dalam kawalan organisasi.
Sokongan NVIDIA AI Enterprise
Pelanggan NVIDIA AI Enterprise mendapat akses kepada sokongan 24/7, kemas kini keselamatan yang proaktif, dan jaminan SLA yang diperlukan oleh perniagaan berskala besar.
Cara Setup NVIDIA NIM
Keperluan Perkakasan dan Perisian
Sebelum memulakan, pastikan persekitaran anda memenuhi syarat berikut:
Perkakasan:
- GPU NVIDIA dengan VRAM minimum 24GB (disyorkan 80GB+ untuk model besar)
- CUDA 12.0 atau lebih baru
- Driver NVIDIA 535 atau lebih baru
Perisian:
- Docker 24.0 atau lebih baru
- NVIDIA Container Toolkit (nvidia-docker2)
- Akaun NVIDIA NGC (NGC Catalog)
Langkah 1: Pasang NVIDIA Container Toolkit
# Ubuntu/Debian
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey |
sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list |
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' |
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart dockerLangkah 2: Dapatkan NGC API Key
- Lawati ngc.nvidia.com dan daftar atau log masuk
- Pergi ke bahagian akaun anda dan klik "Setup"
- Jana API Key baharu
- Simpan API Key ini — ia diperlukan untuk muat turun kontena NIM
Log masuk ke registry NGC menggunakan Docker:
echo "$NGC_API_KEY" | docker login nvcr.io --username '$oauthtoken' --password-stdinLangkah 3: Jalankan Kontena NIM Pertama Anda
Contoh menjalankan model Llama 3 melalui NIM:
export NGC_API_KEY="your-ngc-api-key"
export LOCAL_NIM_CACHE=~/.cache/nim
mkdir -p "$LOCAL_NIM_CACHE"
docker run -it --rm
--gpus all
--shm-size=16GB
-e NGC_API_KEY=$NGC_API_KEY
-v "$LOCAL_NIM_CACHE:/opt/nim/.cache"
-p 8000:8000
nvcr.io/nim/meta/llama3-8b-instruct:latestModel akan dimuat turun secara automatik pada kali pertama (beberapa minit bergantung pada saiz model dan laju internet). Setelah server aktif, anda akan melihat mesej "Uvicorn running on http://0.0.0.0:8000".
Cara Guna NVIDIA NIM API
Panggilan API Asas
NIM menyediakan antara muka yang serasi dengan OpenAI API:
curl -X POST http://localhost:8000/v1/chat/completions
-H "Content-Type: application/json"
-d '{
"model": "meta/llama3-8b-instruct",
"messages": [
{
"role": "user",
"content": "Terangkan potensi AI dalam industri pembuatan di Malaysia"
}
],
"max_tokens": 512,
"temperature": 0.7
}'Integrasi Python dengan NIM
Kerana NIM serasi dengan OpenAI API, anda boleh menggunakan perpustakaan openai:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="not-required-for-local"
)
response = client.chat.completions.create(
model="meta/llama3-8b-instruct",
messages=[
{
"role": "system",
"content": "Anda adalah pakar strategi perniagaan di Malaysia."
},
{
"role": "user",
"content": "Bagaimana syarikat Malaysia boleh memanfaatkan AI generatif?"
}
],
max_tokens=1024
)
print(response.choices[0].message.content)Streaming Respons
stream = client.chat.completions.create(
model="meta/llama3-8b-instruct",
messages=[{"role": "user", "content": "Huraikan tentang AI generatif"}],
stream=True
)
for chunk in stream:
if chunk.choices[0].delta.content is not None:
print(chunk.choices[0].delta.content, end="", flush=True)Model yang Tersedia melalui NVIDIA NIM
NVIDIA NIM menyokong pelbagai model terkemuka melalui katalog NGC:
Model Bahasa (LLM)
- Llama 3.1 405B/70B/8B — Model Meta terbaru untuk perbualan umum
- Mistral Large/7B — Model Eropah yang cekap dan pantas
- NVIDIA Nemotron — Model NVIDIA sendiri yang dioptimumkan untuk enterprise
- Microsoft Phi-3 — Model kecil tetapi berkuasa dari Microsoft
- Google Gemma — Model Google yang ringan untuk penggunaan tempatan
Model Multimodal
- Llava v1.6 — Model visi-bahasa yang boleh menganalisis imej
- NVIDIA Visual AI — Model khusus untuk analisis imej industri
Model Embedding dan Reranking
- NV-EmbedQA — Model embedding NVIDIA yang dioptimumkan untuk RAG
- NV-RerankQA — Model reranking untuk meningkatkan ketepatan carian semantik
NVIDIA NIM dalam Senario Penggunaan Nyata
Senario 1: Chatbot Khidmat Pelanggan untuk Bank Malaysia
Bank tempatan yang tidak boleh menghantar data pelanggan ke awan awam boleh menggunakan NIM di atas GPU on-premise. Model boleh menjawab pertanyaan produk, semak baki, dan panduan permohonan pinjaman — semuanya di dalam infrastruktur bank sendiri.
Contoh konfigurasi: 2x NVIDIA A100 80GB, menjalankan Llama 3 70B, throughput 80 token/saat, boleh mengendalikan 50+ perbualan serentak.
Senario 2: Pemprosesan Dokumen untuk Firma Perundangan
Firma guaman boleh menggunakan NIM untuk menganalisis kontrak, mengenal pasti fasal berisiko, dan meringkaskan dokumen panjang — semuanya tanpa dokumen sulit klien meninggalkan pelayan dalaman firma.
Senario 3: Pembantu AI untuk Kilang Pembuatan
Kilang boleh menggunakan NIM di atas stesen kerja GPU NVIDIA untuk membantu juruteknik dengan troubleshooting mesin, analisis data sensor, dan penjanaan laporan teknikal — dalam bahasa Malaysia dan bahasa teknikal industri yang khusus.
Perbandingan NVIDIA NIM dengan Alternatif Lain
NVIDIA NIM vs Ollama:
NIM memberikan prestasi yang jauh lebih tinggi melalui optimasi TensorRT-LLM, sesuai untuk deployment enterprise berskala. Ollama lebih sesuai untuk penggunaan peribadi dan pembangunan dengan perkakasan terhad.
NVIDIA NIM vs Amazon Bedrock:
NIM membolehkan deployment sepenuhnya on-premise dengan kawalan penuh atas infrastruktur. Amazon Bedrock lebih sesuai untuk syarikat yang mahukan perkhidmatan terurus tanpa menguruskan GPU sendiri.
NVIDIA NIM vs Azure OpenAI:
NIM memberikan lebih banyak kawalan dan lebih sesuai untuk inferens beban tinggi di premis. Azure OpenAI menawarkan kemudahan yang lebih tinggi dengan ekosistem Microsoft.
Kos dan Lesen NVIDIA NIM
NVIDIA NIM tersedia dalam beberapa mod:
NVIDIA API Catalog (Percubaan)
NVIDIA menyediakan akses percubaan percuma kepada NIM melalui build.nvidia.com — anda boleh menguji semua model tanpa perlu menyediakan GPU sendiri. Kredit percuma disediakan untuk pengguna baru.
NVIDIA AI Enterprise (Komersial)
Untuk deployment pengeluaran, lesen NVIDIA AI Enterprise diperlukan. Harga bermula dari sekitar USD 4,500 setiap GPU setiap tahun, yang termasuk sokongan enterprise, kemas kini keselamatan, dan akses kepada semua kontena NIM.
Model Sumber Terbuka melalui NIM
Untuk model yang mempunyai lesen sumber terbuka (contohnya Llama 3, Mistral), anda boleh menggunakan kontena NIM tanpa lesen NVIDIA AI Enterprise untuk kegunaan bukan komersial dan penyelidikan.
Amalan Terbaik Deployment NVIDIA NIM
- Gunakan profil model yang sesuai — NIM secara automatik memilih profil TRT-LLM yang optimum, tetapi anda boleh menentukan profil secara manual berdasarkan GPU dan keperluan prestasi spesifik anda
- Konfigurasikan batas memori dengan betul — Tetapkan --shm-size yang mencukupi (biasanya 16-64GB bergantung pada model) untuk mengelakkan ralat memori bersama
- Pantau penggunaan GPU — Gunakan perintah nvidia-smi dmon untuk memantau penggunaan GPU, memori, dan suhu secara masa nyata
- Skalakan dengan load balancer — Untuk beban kerja tinggi, jalankan beberapa instans NIM di belakang load balancer — contohnya NGINX atau HAProxy
- Kemas kini kontena secara berkala — NVIDIA kerap mengeluarkan versi kontena yang lebih pantas dan lebih selamat
Kesimpulan
NVIDIA NIM mewakili satu lompatan besar dalam penyederhanaan deployment model AI generatif untuk enterprise. Dengan menggabungkan teknologi pengoptimuman GPU terdepan, API yang mudah digunakan, dan sokongan model yang luas, NIM membolehkan perniagaan Malaysia untuk menjalankan AI generatif berkuasa tinggi di dalam infrastruktur mereka sendiri.
Bagi organisasi yang mempunyai keperluan keselamatan data yang ketat, atau yang memerlukan prestasi inferens yang konsisten dan boleh dipercayai, NVIDIA NIM adalah pelaburan yang bernilai. Dengan ekosistem GPU NVIDIA yang terus berkembang dan sokongan model yang semakin bertambah, platform ini akan terus menjadi pilihan utama untuk enterprise AI di Malaysia.
Mulakan dengan kredit percuba di NVIDIA API Catalog, nilai keupayaan model yang tersedia, dan rancang strategi deployment yang paling sesuai untuk keperluan bisnes anda.
Menguji NVIDIA NIM Tanpa GPU: API Catalog NVIDIA
Jika anda tidak mempunyai GPU NVIDIA yang sesuai, NVIDIA menyediakan cara untuk mencuba NIM secara percuma melalui platform cloud mereka sendiri:
- Lawati build.nvidia.com dan daftarkan akaun
- Terokai katalog model yang tersedia — terdapat lebih 100 model yang boleh dicuba
- Pilih model dan klik "API" untuk mendapatkan contoh kod
- Gunakan kredit percuma yang diberikan untuk menguji pelbagai model
Platform ini amat berguna untuk menilai model sebelum membuat keputusan pelaburan dalam perkakasan GPU.
Integrasi NVIDIA NIM dengan Rangka Kerja AI Popular
LangChain dengan NIM
Kerana NIM serasi dengan OpenAI API, integrasi dengan LangChain sangat mudah. Anda hanya perlu menetapkan base_url kepada endpoint NIM tempatan anda. Ini bermakna semua rantaian LangChain, ejen, dan komponen RAG yang anda bina untuk OpenAI boleh berfungsi dengan NIM tanpa pengubahsuaian besar.
LlamaIndex dengan NIM
LlamaIndex, rangka kerja RAG yang popular, juga menyokong NIM melalui antara muka OpenAI-compatible. Ini membolehkan pembinaan sistem soal-jawab berasaskan dokumen yang berjalan sepenuhnya on-premise dengan prestasi tinggi.
Kubernetes dan Helm Chart
Untuk deployment berskala enterprise, NVIDIA menyediakan Helm chart rasmi untuk Kubernetes. Ini memudahkan skalabiliti horizontal — menambah atau mengurangkan bilangan replika NIM berdasarkan beban kerja — dengan integrasi penuh ke dalam ekosistem DevOps sedia ada.
Memilih GPU yang Sesuai untuk NVIDIA NIM di Malaysia
Pemilihan GPU bergantung kepada model yang ingin dijalankan dan belanjawan yang tersedia:
- NVIDIA A10G (24GB VRAM) — Sesuai untuk model 7B-13B parameter. Kos yang lebih rendah, sesuai untuk PKS
- NVIDIA A100 (40GB/80GB VRAM) — Standard industri untuk model 30B-70B. Pilihan utama untuk enterprise
- NVIDIA H100 (80GB VRAM) — GPU terkini dan terpantas. Untuk aplikasi yang memerlukan throughput tertinggi
- NVIDIA L40S (48GB VRAM) — Keseimbangan terbaik antara prestasi dan kos untuk beban kerja campuran
Bagi syarikat Malaysia yang tidak mahu melabur dalam GPU sendiri, pilihan cloud dengan GPU NVIDIA — termasuk Amazon EC2 P3/P4, Google Cloud A100, atau Microsoft Azure NDv4 — juga menyokong deployment NVIDIA NIM sepenuhnya.
Dengan panduan ini, anda kini mempunyai asas yang kukuh untuk memulakan deployment AI enterprise menggunakan NVIDIA NIM. Teknologi ini membuka peluang kepada perniagaan Malaysia untuk memanfaatkan kuasa model AI terbesar dan terbaik dunia — di dalam infrastruktur yang anda kawal sepenuhnya.
🔤 Rekomendasi: Grammarly
Sebelum hantar apa-apa tulisan dalam Bahasa Inggeris — semak dulu dengan Grammarly. Pelan percuma dah cukup untuk kegunaan harian. Premium (RM35/bulan) tambah cadangan gaya penulisan + penjana ayat AI.
Artikel Berkaitan
- Cara Guna ChatGPT — Panduan Lengkap Malaysia
- Cara Guna Claude AI di Malaysia
- Cara Guna Google Gemini — Panduan Terkini
Rujukan
- NVIDIA AI — Platform Inferens dan Penyebaran Model AI Skala Perusahaan
- MDEC Malaysia — Pembangunan Infrastruktur AI dan GPU Komputasi
- Bernama Teknologi — Perkembangan Infrastruktur AI dan Komputasi Tinggi di Malaysia