⚠️ Pendedahan Afiliasi: Artikel ini mungkin mengandungi pautan afiliasi. Kami mungkin mendapat komisyen kecil jika anda membeli melalui pautan kami, tanpa kos tambahan kepada anda. Ini membantu kami terus menyediakan kandungan percuma berkualiti.

Pendedahan: Artikel ini mengandungi pautan affiliate. Jika anda mendaftar melalui pautan kami, kami mungkin menerima komisyen kecil — tanpa sebarang kos tambahan kepada anda. Ini membantu kami terus menghasilkan panduan percuma dalam Bahasa Melayu.

NVIDIA NIM (NVIDIA Inference Microservices) adalah platform perkhidmatan mikro yang dioptimumkan untuk pelaksanaan model AI di atas perkakasan NVIDIA GPU. Dilancarkan sebagai sebahagian daripada NVIDIA AI Enterprise, NIM memudahkan proses deployment model AI generatif dalam persekitaran enterprise dengan prestasi yang dioptimumkan melalui teknologi TensorRT-LLM dan Triton Inference Server.

Bagi perniagaan Malaysia yang sedang merancang untuk melaksanakan AI generatif dalam infrastruktur mereka sendiri — sama ada on-premise, cloud hibrid, atau persekitaran yang dikawal ketat — NVIDIA NIM menawarkan penyelesaian yang tersedia dalam pasaran, mudah dikonfigurasikan, dan berkuasa tinggi.

Isi Kandungan

Apa Itu NVIDIA NIM?

NVIDIA NIM ialah koleksi perkhidmatan mikro berasaskan kontena yang mengemas model AI generatif bersama tumpukan perisian pengoptimuman NVIDIA yang telah dikalibrasi. Setiap kontena NIM mengandungi:

Model AI yang telah dioptimumkan (contohnya Llama 3, Mistral, Nemotron)
TensorRT-LLM — enjin inferens GPU NVIDIA yang sangat pantas
Triton Inference Server — platform pelayan inferens berprestasi tinggi
API yang serasi dengan OpenAI untuk migrasi mudah dari perkhidmatan awan

Dengan NIM, perkara yang sebelum ini memerlukan pasukan jurutera AI yang berpengalaman kini boleh dilakukan oleh pasukan IT biasa dalam masa beberapa minit.

Kenapa NVIDIA NIM untuk Bisnes Malaysia?

Prestasi GPU yang Dioptimumkan Penuh

NIM bukan sekadar menjalankan model di atas GPU — ia mengoptimumkan model tersebut khusus untuk seni bina GPU NVIDIA yang anda gunakan. Sama ada anda menggunakan GPU NVIDIA A10G, A100, H100, atau siri GeForce terbaru, NIM secara automatik memilih profil optimasi terbaik.

Perbandingan prestasi yang tipikal: Menjalankan model Llama 3 70B menggunakan Ollama biasa pada GPU H100 boleh memberikan throughput sekitar 20-30 token sesaat. Dengan NIM yang menggunakan TensorRT-LLM, throughput yang sama boleh mencapai 100-150 token sesaat — peningkatan antara 3-5 kali ganda.

API yang Serasi dengan OpenAI

NIM menggunakan format API yang sama dengan OpenAI, bermakna aplikasi yang sudah menggunakan OpenAI GPT boleh beralih ke NIM dengan perubahan kod yang minima — hanya menukar URL dan kunci API. Ini mengurangkan risiko migrasi secara drastik.

Pematuhan dan Kawalan Data Enterprise

Perniagaan dalam industri yang dikawal selia — perbankan, penjagaan kesihatan, insurans — sering tidak boleh menghantar data ke awan awam. NIM boleh dijalankan sepenuhnya di dalam premis sendiri atau awan peribadi, memastikan data sentiasa dalam kawalan organisasi.

Sokongan NVIDIA AI Enterprise

Pelanggan NVIDIA AI Enterprise mendapat akses kepada sokongan 24/7, kemas kini keselamatan yang proaktif, dan jaminan SLA yang diperlukan oleh perniagaan berskala besar.

Cara Setup NVIDIA NIM

Keperluan Perkakasan dan Perisian

Sebelum memulakan, pastikan persekitaran anda memenuhi syarat berikut:

Perkakasan:

GPU NVIDIA dengan VRAM minimum 24GB (disyorkan 80GB+ untuk model besar)
CUDA 12.0 atau lebih baru
Driver NVIDIA 535 atau lebih baru

Perisian:

Docker 24.0 atau lebih baru
NVIDIA Container Toolkit (nvidia-docker2)
Akaun NVIDIA NGC (NGC Catalog)

Langkah 1: Pasang NVIDIA Container Toolkit

# Ubuntu/Debian
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | 
  sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg

curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | 
  sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | 
  sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

Langkah 2: Dapatkan NGC API Key

Lawati ngc.nvidia.com dan daftar atau log masuk
Pergi ke bahagian akaun anda dan klik "Setup"
Jana API Key baharu
Simpan API Key ini — ia diperlukan untuk muat turun kontena NIM

Log masuk ke registry NGC menggunakan Docker:

echo "$NGC_API_KEY" | docker login nvcr.io --username '$oauthtoken' --password-stdin

Langkah 3: Jalankan Kontena NIM Pertama Anda

Contoh menjalankan model Llama 3 melalui NIM:

export NGC_API_KEY="your-ngc-api-key"
export LOCAL_NIM_CACHE=~/.cache/nim

mkdir -p "$LOCAL_NIM_CACHE"

docker run -it --rm 
  --gpus all 
  --shm-size=16GB 
  -e NGC_API_KEY=$NGC_API_KEY 
  -v "$LOCAL_NIM_CACHE:/opt/nim/.cache" 
  -p 8000:8000 
  nvcr.io/nim/meta/llama3-8b-instruct:latest

Model akan dimuat turun secara automatik pada kali pertama (beberapa minit bergantung pada saiz model dan laju internet). Setelah server aktif, anda akan melihat mesej "Uvicorn running on http://0.0.0.0:8000".

Cara Guna NVIDIA NIM API

Panggilan API Asas

NIM menyediakan antara muka yang serasi dengan OpenAI API:

curl -X POST http://localhost:8000/v1/chat/completions 
  -H "Content-Type: application/json" 
  -d '{
    "model": "meta/llama3-8b-instruct",
    "messages": [
      {
        "role": "user",
        "content": "Terangkan potensi AI dalam industri pembuatan di Malaysia"
      }
    ],
    "max_tokens": 512,
    "temperature": 0.7
  }'

Integrasi Python dengan NIM

Kerana NIM serasi dengan OpenAI API, anda boleh menggunakan perpustakaan openai:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="not-required-for-local"
)

response = client.chat.completions.create(
    model="meta/llama3-8b-instruct",
    messages=[
        {
            "role": "system",
            "content": "Anda adalah pakar strategi perniagaan di Malaysia."
        },
        {
            "role": "user",
            "content": "Bagaimana syarikat Malaysia boleh memanfaatkan AI generatif?"
        }
    ],
    max_tokens=1024
)

print(response.choices[0].message.content)

Streaming Respons

stream = client.chat.completions.create(
    model="meta/llama3-8b-instruct",
    messages=[{"role": "user", "content": "Huraikan tentang AI generatif"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content is not None:
        print(chunk.choices[0].delta.content, end="", flush=True)

Model yang Tersedia melalui NVIDIA NIM

NVIDIA NIM menyokong pelbagai model terkemuka melalui katalog NGC:

Model Bahasa (LLM)

Llama 3.1 405B/70B/8B — Model Meta terbaru untuk perbualan umum
Mistral Large/7B — Model Eropah yang cekap dan pantas
NVIDIA Nemotron — Model NVIDIA sendiri yang dioptimumkan untuk enterprise
Microsoft Phi-3 — Model kecil tetapi berkuasa dari Microsoft
Google Gemma — Model Google yang ringan untuk penggunaan tempatan

Model Multimodal

Llava v1.6 — Model visi-bahasa yang boleh menganalisis imej
NVIDIA Visual AI — Model khusus untuk analisis imej industri

Model Embedding dan Reranking

NV-EmbedQA — Model embedding NVIDIA yang dioptimumkan untuk RAG
NV-RerankQA — Model reranking untuk meningkatkan ketepatan carian semantik

NVIDIA NIM dalam Senario Penggunaan Nyata

Senario 1: Chatbot Khidmat Pelanggan untuk Bank Malaysia

Bank tempatan yang tidak boleh menghantar data pelanggan ke awan awam boleh menggunakan NIM di atas GPU on-premise. Model boleh menjawab pertanyaan produk, semak baki, dan panduan permohonan pinjaman — semuanya di dalam infrastruktur bank sendiri.

Contoh konfigurasi: 2x NVIDIA A100 80GB, menjalankan Llama 3 70B, throughput 80 token/saat, boleh mengendalikan 50+ perbualan serentak.

Senario 2: Pemprosesan Dokumen untuk Firma Perundangan

Firma guaman boleh menggunakan NIM untuk menganalisis kontrak, mengenal pasti fasal berisiko, dan meringkaskan dokumen panjang — semuanya tanpa dokumen sulit klien meninggalkan pelayan dalaman firma.

Senario 3: Pembantu AI untuk Kilang Pembuatan

Kilang boleh menggunakan NIM di atas stesen kerja GPU NVIDIA untuk membantu juruteknik dengan troubleshooting mesin, analisis data sensor, dan penjanaan laporan teknikal — dalam bahasa Malaysia dan bahasa teknikal industri yang khusus.

Perbandingan NVIDIA NIM dengan Alternatif Lain

NVIDIA NIM vs Ollama:
NIM memberikan prestasi yang jauh lebih tinggi melalui optimasi TensorRT-LLM, sesuai untuk deployment enterprise berskala. Ollama lebih sesuai untuk penggunaan peribadi dan pembangunan dengan perkakasan terhad.

NVIDIA NIM vs Amazon Bedrock:
NIM membolehkan deployment sepenuhnya on-premise dengan kawalan penuh atas infrastruktur. Amazon Bedrock lebih sesuai untuk syarikat yang mahukan perkhidmatan terurus tanpa menguruskan GPU sendiri.

NVIDIA NIM vs Azure OpenAI:
NIM memberikan lebih banyak kawalan dan lebih sesuai untuk inferens beban tinggi di premis. Azure OpenAI menawarkan kemudahan yang lebih tinggi dengan ekosistem Microsoft.

Kos dan Lesen NVIDIA NIM

NVIDIA NIM tersedia dalam beberapa mod:

NVIDIA API Catalog (Percubaan)

NVIDIA menyediakan akses percubaan percuma kepada NIM melalui build.nvidia.com — anda boleh menguji semua model tanpa perlu menyediakan GPU sendiri. Kredit percuma disediakan untuk pengguna baru.

NVIDIA AI Enterprise (Komersial)

Untuk deployment pengeluaran, lesen NVIDIA AI Enterprise diperlukan. Harga bermula dari sekitar USD 4,500 setiap GPU setiap tahun, yang termasuk sokongan enterprise, kemas kini keselamatan, dan akses kepada semua kontena NIM.

Model Sumber Terbuka melalui NIM

Untuk model yang mempunyai lesen sumber terbuka (contohnya Llama 3, Mistral), anda boleh menggunakan kontena NIM tanpa lesen NVIDIA AI Enterprise untuk kegunaan bukan komersial dan penyelidikan.

Amalan Terbaik Deployment NVIDIA NIM

Gunakan profil model yang sesuai — NIM secara automatik memilih profil TRT-LLM yang optimum, tetapi anda boleh menentukan profil secara manual berdasarkan GPU dan keperluan prestasi spesifik anda
Konfigurasikan batas memori dengan betul — Tetapkan --shm-size yang mencukupi (biasanya 16-64GB bergantung pada model) untuk mengelakkan ralat memori bersama
Pantau penggunaan GPU — Gunakan perintah nvidia-smi dmon untuk memantau penggunaan GPU, memori, dan suhu secara masa nyata
Skalakan dengan load balancer — Untuk beban kerja tinggi, jalankan beberapa instans NIM di belakang load balancer — contohnya NGINX atau HAProxy
Kemas kini kontena secara berkala — NVIDIA kerap mengeluarkan versi kontena yang lebih pantas dan lebih selamat

Kesimpulan

NVIDIA NIM mewakili satu lompatan besar dalam penyederhanaan deployment model AI generatif untuk enterprise. Dengan menggabungkan teknologi pengoptimuman GPU terdepan, API yang mudah digunakan, dan sokongan model yang luas, NIM membolehkan perniagaan Malaysia untuk menjalankan AI generatif berkuasa tinggi di dalam infrastruktur mereka sendiri.

Bagi organisasi yang mempunyai keperluan keselamatan data yang ketat, atau yang memerlukan prestasi inferens yang konsisten dan boleh dipercayai, NVIDIA NIM adalah pelaburan yang bernilai. Dengan ekosistem GPU NVIDIA yang terus berkembang dan sokongan model yang semakin bertambah, platform ini akan terus menjadi pilihan utama untuk enterprise AI di Malaysia.

Mulakan dengan kredit percuba di NVIDIA API Catalog, nilai keupayaan model yang tersedia, dan rancang strategi deployment yang paling sesuai untuk keperluan bisnes anda.

Menguji NVIDIA NIM Tanpa GPU: API Catalog NVIDIA

Jika anda tidak mempunyai GPU NVIDIA yang sesuai, NVIDIA menyediakan cara untuk mencuba NIM secara percuma melalui platform cloud mereka sendiri:

Lawati build.nvidia.com dan daftarkan akaun
Terokai katalog model yang tersedia — terdapat lebih 100 model yang boleh dicuba
Pilih model dan klik "API" untuk mendapatkan contoh kod
Gunakan kredit percuma yang diberikan untuk menguji pelbagai model

Platform ini amat berguna untuk menilai model sebelum membuat keputusan pelaburan dalam perkakasan GPU.

Integrasi NVIDIA NIM dengan Rangka Kerja AI Popular

LangChain dengan NIM

Kerana NIM serasi dengan OpenAI API, integrasi dengan LangChain sangat mudah. Anda hanya perlu menetapkan base_url kepada endpoint NIM tempatan anda. Ini bermakna semua rantaian LangChain, ejen, dan komponen RAG yang anda bina untuk OpenAI boleh berfungsi dengan NIM tanpa pengubahsuaian besar.

LlamaIndex dengan NIM

LlamaIndex, rangka kerja RAG yang popular, juga menyokong NIM melalui antara muka OpenAI-compatible. Ini membolehkan pembinaan sistem soal-jawab berasaskan dokumen yang berjalan sepenuhnya on-premise dengan prestasi tinggi.

Kubernetes dan Helm Chart

Untuk deployment berskala enterprise, NVIDIA menyediakan Helm chart rasmi untuk Kubernetes. Ini memudahkan skalabiliti horizontal — menambah atau mengurangkan bilangan replika NIM berdasarkan beban kerja — dengan integrasi penuh ke dalam ekosistem DevOps sedia ada.

Memilih GPU yang Sesuai untuk NVIDIA NIM di Malaysia

Pemilihan GPU bergantung kepada model yang ingin dijalankan dan belanjawan yang tersedia:

NVIDIA A10G (24GB VRAM) — Sesuai untuk model 7B-13B parameter. Kos yang lebih rendah, sesuai untuk PKS
NVIDIA A100 (40GB/80GB VRAM) — Standard industri untuk model 30B-70B. Pilihan utama untuk enterprise
NVIDIA H100 (80GB VRAM) — GPU terkini dan terpantas. Untuk aplikasi yang memerlukan throughput tertinggi
NVIDIA L40S (48GB VRAM) — Keseimbangan terbaik antara prestasi dan kos untuk beban kerja campuran

Bagi syarikat Malaysia yang tidak mahu melabur dalam GPU sendiri, pilihan cloud dengan GPU NVIDIA — termasuk Amazon EC2 P3/P4, Google Cloud A100, atau Microsoft Azure NDv4 — juga menyokong deployment NVIDIA NIM sepenuhnya.

Dengan panduan ini, anda kini mempunyai asas yang kukuh untuk memulakan deployment AI enterprise menggunakan NVIDIA NIM. Teknologi ini membuka peluang kepada perniagaan Malaysia untuk memanfaatkan kuasa model AI terbesar dan terbaik dunia — di dalam infrastruktur yang anda kawal sepenuhnya.

🔤 Rekomendasi: Grammarly

Sebelum hantar apa-apa tulisan dalam Bahasa Inggeris — semak dulu dengan Grammarly. Pelan percuma dah cukup untuk kegunaan harian. Premium (RM35/bulan) tambah cadangan gaya penulisan + penjana ayat AI.

→ Cuba Grammarly Percuma

Cara Guna NVIDIA NIM: Deploy AI Model Inference Malaysia 2025