NVIDIA Nemotron 3 Super 120B — Model AI Open Source Terbaru 2026

⚠️ Pendedahan Afiliasi: Artikel ini mungkin mengandungi pautan afiliasi. Kami mungkin mendapat komisyen kecil jika anda membeli melalui pautan kami, tanpa kos tambahan kepada anda. Ini membantu kami terus menyediakan kandungan percuma berkualiti.

NVIDIA baru sahaja melancarkan model AI terbaru mereka yang menggegarkan industri: Nemotron 3 Super 120B \xe2x80x94 model sumber terbuka (open source) yang menggabungkan seni bina hibrid Mamba-Transformer dengan Mixture of Experts (MoE) untuk prestasi yang luar biasa.

Pendedahan: Artikel ini mengandungi pautan affiliate. Jika anda mendaftar melalui pautan kami, kami mungkin menerima komisyen kecil — tanpa sebarang kos tambahan kepada anda. Ini membantu kami terus menghasilkan panduan percuma dalam Bahasa Melayu.

Diumumkan pada 11 Mac 2026 semasa NVIDIA GTC, Nemotron 3 Super bukanlah sekadar model AI biasa. Ia direka khas untuk tugas agentic (AI yang bertindak secara autonomi), mempunyai tetingkap konteks 1 juta token, dan mampu beroperasi pada kelajuan 7.5x lebih tinggi berbanding model saiznya yang setara.

Yang lebih menarik \xe2x80x94 ia percuma untuk digunakan melalui beberapa platform termasuk OpenRouter.

Isi Kandungan

Apa Itu NVIDIA Nemotron 3 Super?

Nemotron 3 Super adalah model bahasa besar (Large Language Model / LLM) generasi terbaru dari NVIDIA. Berbeza dari model AI konvensional yang menggunakan seni bina Transformer sepenuhnya, Nemotron 3 Super menggunakan pendekatan hibrid yang menggabungkan tiga jenis lapisan berbeza.

Nama "Super" dalam konteks ini merujuk kepada kedudukannya dalam keluarga Nemotron 3 \xe2x80x94 lebih berkuasa dari Nemotron 3 Nano (untuk tugas ringkas), tetapi lebih efisien dari model-model gergasi lain pada saiz yang sama.

Spesifikasi Teknikal Nemotron 3 Super 120B

Parameter dan Prestasi Asas

| Spesifikasi | Butiran |
|---|---|
| Jumlah Parameter | 120 bilion |
| Parameter Aktif (per token) | 12 bilion |
| Nisbah Aktif/Jumlah | 10:1 (12B aktif dari 120B jumlah) |
| Tetingkap Konteks | 1 juta token (1M) |
| Tarikh Lancar | 11 Mac 2026 (NVIDIA GTC) |
| Bahasa Disokong | Inggeris, Perancis, Jerman, Itali, Jepun, Sepanyol, Cina |

Angka 12B parameter aktif ini adalah kunci kepada kecekapan model \xe2x80x94 walaupun jumlah keseluruhan 120B, hanya 12B diaktifkan semasa setiap penjanaan token. Ini membolehkan kelajuan inferens yang jauh lebih tinggi berbanding model yang mengaktifkan semua parameternya.

Seni Bina Hibrid: Mengapa Ia Berbeza

Nemotron 3 Super menggunakan corak tiga lapisan yang diulang secara bergilir:

1. Lapisan Mamba-2

Mamba adalah seni bina terbaru yang menangani kebanyakan pemprosesan urutan dengan kerumitan linear (bukan kuadratik macam Transformer biasa). Ini membolehkan model menguruskan konteks 1 juta token dengan praktikal \xe2x80x94 sesuatu yang hampir mustahil untuk Transformer tulen pada kos yang sama.

2. Lapisan Latent MoE (Mixture of Experts)

Lapisan ini beroperasi pada representasi latensi terkompresi sebelum menghalakan kepada pakar-pakar khusus. Inovasinya: LatentMoE membolehkan 4x lebih ramai pakar pada kos inferens yang sama berbanding MoE standard.

3. Lapisan Transformer Attention

Lapisan Transformer disisipkan secara selektif untuk tugas yang memerlukan perkaitan asosiatif yang tepat \xe2x80x94 contohnya mencari maklumat spesifik dalam dokumen panjang (needle-in-haystack retrieval).

Kombinasi ketiga lapisan ini adalah sebab Nemotron 3 Super boleh mengendalikan 1 juta token dengan cekap sambil kekal laju.

Prestasi Penanda Aras (Benchmark)

Keputusan Utama

| Penanda Aras | Skor | Keterangan |
|---|---|---|
| PinchBench (Agent Reasoning) | 85.6% | Terbaik dalam kelasnya (model open source) |
| SWE-Bench Verified | 60.47% | Penyelesaian bug kod automatik |
| Artificial Analysis Index | 36 mata | +17 mata dari Nemotron 3 Nano |
| RULER 256K tokens | 96.30% | Pemahaman konteks panjang |
| RULER 512K tokens | 95.67% | Konsisten pada konteks sangat panjang |
| RULER 1M tokens | 91.75% | Masih sangat tinggi pada konteks penuh |

Perbandingan Throughput (Kelajuan)

| Model | Throughput (Relatif) |
|---|---|
| Nemotron 3 Super 120B | 7.5x (asas perbandingan) |
| GPT-OSS-120B | 3.4x (2.2x lebih perlahan) |
| Qwen3.5-122B | 1x (7.5x lebih perlahan) |

Kelajuan 7.5x lebih laju dari Qwen3.5-122B adalah peningkatan yang sangat signifikan untuk deployment skala besar. Bayangkan kos pengiraan yang dapat dijimatkan \xe2x80x94 atau berapa banyak lebih banyak request boleh diproses dalam masa yang sama.

Cara Latihan: 3 Fasa

NVIDIA melatih Nemotron 3 Super melalui tiga fasa berturutan:

Fasa 1: Pra-Latihan (Pretraining)

25 trillion token latihan menggunakan NVFP4 (format 4-bit floating-point baru NVIDIA)
10 trillion token unik yang dikurasi
10 bilion token tambahan fokus kepada penaakulan (reasoning)
15 juta masalah pengekodan
Dilatih dalam NVFP4 dari pengemaskinian gradien pertama

Fasa 2: Fine-Tuning Diselia (SFT)

7 juta sampel SFT dari koleksi 40 juta sampel post-training
Merangkumi: penaakulan, ikut arahan, pengekodan, keselamatan, tugas agentic berbilang langkah

Fasa 3: Pembelajaran Peneguhan (Reinforcement Learning)

21 konfigurasi persekitaran berbeza
Kira-kira 1.2 juta rollout persekitaran
Dilatih menggunakan NeMo Gym dan NeMo RL

Di Mana Boleh Cuba dan Guna Nemotron 3 Super?

Percuma (No Cost)

| Platform | Had | URL |
|---|---|---|
| OpenRouter | $0/juta token, konteks 262K | openrouter.ai |
| build.nvidia.com | NVIDIA NIM | build.nvidia.com |
| Ollama | Self-hosted percuma | ollama.com |

API Berbayar (Enterprise)

Untuk penggunaan skala besar, Nemotron 3 Super tersedia melalui pelbagai penyedia API komersial:

Google Cloud Vertex AI \xe2x80x94 integrasi terus dengan ekosistem Google
Cloudflare Workers AI \xe2x80x94 deployment edge tanpa latensi tinggi
Fireworks AI \xe2x80x94 fokus pada kelajuan inferens
Together AI \xe2x80x94 popular untuk penyelidikan dan startup
DeepInfra \xe2x80x94 harga kompetitif untuk volume tinggi

Self-Hosted (Jana Sendiri)

Untuk organisasi yang perlu data privacy atau deployment on-premise:

Hugging Face \xe2x80x94 pelbagai versi kuantisasi tersedia
vLLM \xe2x80x94 framework inferens yang popular
TensorRT-LLM \xe2x80x94 dioptimumkan untuk GPU NVIDIA
NVIDIA NIM \xe2x80x94 dalam bentuk kontena untuk deployment mudah

Keperluan minimum: 8u00d7 GPU H100-80GB untuk deployment penuh 120B dalam BF16.

Kes Penggunaan Terbaik

Nemotron 3 Super direka khas untuk senario berikut:

Sistem Agentic Berbilang Ejen (Multi-Agent)

NVIDIA mengesyorkan gabungan: Nemotron 3 Nano untuk langkah mudah + Super untuk penaakulan kompleks. Ini mengoptimumkan kos sambil kekal berkuasa untuk tugas yang memerlukan pemikiran mendalam.

Pembangunan Perisian Automatik

Dengan skor SWE-Bench Verified 60.47%, Nemotron 3 Super adalah antara model terbaik untuk:

Penyelesaian bug automatik
Penjanaan kod dari spesifikasi
Code review dan analisis keselamatan

Analisis Dokumen Panjang

Tetingkap konteks 1 juta token bermaksud anda boleh masukkan hampir satu perpustakaan penuh dokumen dalam satu permintaan. Berguna untuk:

Analisis kontrak undang-undang
Kajian semula kod repositori besar
Analisis laporan kewangan panjang

Penyelidikan dan Pembangunan AI

Sebagai model open source sepenuhnya, NVIDIA turut melepaskan:

Berat model (pre-trained, post-trained, kuantisasi)
40 juta sampel post-training
10 trillion+ token pra-latihan yang dikurasi
21 konfigurasi RL
Cookbook untuk deployment dan fine-tuning

Perbandingan: Nemotron 3 Super vs Model Lain

| | Nemotron 3 Super | Qwen3.5-122B | Llama 3.3 70B |
|---|---|---|---|
| Parameter jumlah | 120B | 122B | 70B |
| Parameter aktif | 12B | ~70B | 70B |
| Konteks | 1M token | 128K | 128K |
| Throughput | 7.5x | 1x | ~3x |
| SWE-Bench | 60.47% | ~66% | ~40% |
| Open source | Sepenuhnya | Sepenuhnya | Sepenuhnya |
| Percuma (API) | Ya (OpenRouter) | Ya | Ya |

Nota penting: Qwen3.5-122B mempunyai skor SWE-Bench yang lebih tinggi (~66% vs 60.47%), tetapi Nemotron 3 Super 7.5x lebih laju pada throughput \xe2x80x94 bermakna untuk deployment yang memerlukan kelajuan, Nemotron jelas menang.

Format Kuantisasi yang Tersedia

NVIDIA melancarkan Nemotron 3 Super dalam beberapa format:

| Format | Keperluan | Nota |
|---|---|---|
| NVFP4 | GPU Blackwell (B200, RTX 5090) | 4x lebih laju dari FP8 pada B200 |
| FP8 | GPU Hopper (H100) | Imbangan prestasi/ketepatan |
| BF16 | GPU Hopper/Ampere | Ketepatan penuh, lebih perlahan |
| Base BF16 | Penyelidikan | Checkpoint pra-latihan |

NVFP4 adalah format terbaru NVIDIA yang dioptimumkan khas untuk cip Blackwell \xe2x80x94 menunjukkan peningkatan 4x kelajuan berbanding FP8 pada GPU B200. Ini sangat relevan untuk sesiapa yang ada akses kepada infrastruktur Blackwell.

Soalan Lazim (FAQ)

Adakah Nemotron 3 Super percuma?

Ya, untuk penggunaan asas. Melalui OpenRouter, anda boleh menggunakan Nemotron 3 Super dengan $0 kos per token (dengan had konteks 262K token). Untuk penggunaan komersial skala besar, anda perlu langganan dengan penyedia API berbayar.

Berapa banyak memori GPU yang diperlukan?

Minimum 8u00d7 H100-80GB untuk menjalankan model BF16 penuh. Dengan kuantisasi FP8 atau NVFP4, keperluan memori berkurangan dengan ketara. Untuk Ollama dengan kuantisasi agresif, mungkin boleh jalan dengan lebih sedikit GPU.

Boleh guna Nemotron 3 Super untuk Bahasa Melayu?

Secara rasmi, bahasa yang disokong adalah Inggeris, Perancis, Jerman, Itali, Jepun, Sepanyol, dan Cina. Bahasa Melayu tidak disenaraikan secara rasmi \xe2x80x94 tetapi model besar 120B biasanya mempunyai kefahaman asas BM dari data pra-latihan web. Untuk aplikasi BM kritikal, anda mungkin perlu fine-tune atau guna model yang khusus dilatih dalam BM.

Apa beza Nemotron 3 Nano dan Super?

Nano direka untuk tugas mudah dengan latihan rendah, manakala Super untuk tugas kompleks yang memerlukan penaakulan mendalam. NVIDIA mengesyorkan gabungan kedua-dua dalam sistem agentic: Nano untuk langkah biasa, Super apabila diperlukan.

Di mana boleh muat turun model?

Hugging Face: `nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16` dan varian lain. Juga tersedia melalui `ollama pull nemotron-3-super`.

Kesimpulan: Adakah Nemotron 3 Super Penting?

Ya \xe2x80x94 untuk beberapa sebab:

Untuk developer: Model open source 120B percuma dengan kelajuan 7.5x lebih tinggi dari pesaing adalah nilai yang luar biasa. Jika anda membina aplikasi agentic atau perlu pemprosesan konteks panjang, Nemotron 3 Super patut dicuba.

Untuk penyelidik: Keseluruhan ekosistem yang dilepaskan NVIDIA \xe2x80x94 data latihan, kod, cookbook \xe2x80x94 menjadikan ini antara open source AI yang paling komprehensif dari syarikat besar.

Untuk enterprise: Throughput tinggi bermaksud kos operasi yang lebih rendah pada skala. Untuk deployment API skala besar, penjimatan 7.5x berbanding Qwen3.5 adalah sangat ketara.

Untuk Malaysia: Walaupun BM tidak disokong secara rasmi, developer Malaysia yang membina produk berbahasa Inggeris atau berbilang bahasa kini ada pilihan model enterprise-grade yang percuma untuk diuji.

Rujukan

🔤 Rekomendasi: Grammarly

Sebelum hantar apa-apa tulisan dalam Bahasa Inggeris — semak dulu dengan Grammarly. Pelan percuma dah cukup untuk kegunaan harian. Premium (RM35/bulan) tambah cadangan gaya penulisan + penjana ayat AI.

→ Cuba Grammarly Percuma