Cara Guna Ollama AI: Jalankan LLM Tempatan di Komputer Anda 2025

⚠️ Pendedahan Afiliasi: Artikel ini mungkin mengandungi pautan afiliasi. Kami mungkin mendapat komisyen kecil jika anda membeli melalui pautan kami, tanpa kos tambahan kepada anda. Ini membantu kami terus menyediakan kandungan percuma berkualiti.

Pendedahan: Artikel ini mengandungi pautan affiliate. Jika anda mendaftar melalui pautan kami, kami mungkin menerima komisyen kecil — tanpa sebarang kos tambahan kepada anda. Ini membantu kami terus menghasilkan panduan percuma dalam Bahasa Melayu.

Ollama ialah alat sumber terbuka yang membolehkan anda menjalankan model bahasa besar (Large Language Models, LLM) terus di komputer anda sendiri tanpa sambungan internet. Dengan Ollama, anda boleh menggunakan model AI yang berkuasa — termasuk Llama 3, Mistral, Gemma, dan banyak lagi — secara sepenuhnya luar talian, melindungi privasi data anda dan menjimatkan kos langganan perkhidmatan AI awan.

Bagi pengguna di Malaysia yang prihatin tentang privasi data atau yang bekerja dalam persekitaran dengan sambungan internet yang terhad, Ollama menawarkan penyelesaian yang ideal. Panduan ini akan membimbing anda melalui setiap aspek penggunaan Ollama dari pemasangan hingga penggunaan lanjutan.

Isi Kandungan

Apa Itu Ollama dan Kenapa Ia Penting?

Ollama adalah runtime model AI tempatan yang menjadikan proses menjalankan LLM semudah memasang aplikasi biasa. Sebelum Ollama wujud, menjalankan LLM secara tempatan memerlukan kepakaran teknikal yang mendalam — mengkompil kod, mengurus dependencies, dan konfigurasi GPU yang rumit.

Kini, dengan satu arahan terminal, anda boleh memuat turun dan menjalankan model AI yang setanding dengan GPT-3.5 terus di laptop atau komputer peribadi anda.

Kelebihan Menjalankan AI Secara Tempatan

Privasi Mutlak — Data anda tidak pernah meninggalkan komputer anda. Tiada syarikat pihak ketiga yang boleh membaca perbualan atau dokumen anda
Tiada Kos Berulang — Setelah model dimuat turun, anda boleh menggunakannya tanpa had tanpa membayar sen pun
Akses Luar Talian — Bekerja walaupun tanpa sambungan internet. Sesuai untuk kawasan yang mempunyai sambungan tidak stabil
Kawalan Penuh — Tentukan sendiri model mana yang digunakan, versi yang mana, dan bagaimana ia dikonfigurasikan
Latensi Rendah — Tiada masa menunggu respons dari server jauh. Model berjalan terus di perkakasan anda

Keperluan Sistem untuk Ollama

Sebelum memasang Ollama, pastikan komputer anda memenuhi keperluan minimum:

Untuk Penggunaan CPU sahaja:

RAM: Minimum 8GB (disyorkan 16GB untuk model yang lebih besar)
Ruang cakera: Minimum 10GB (model boleh mencapai saiz 4-40GB)
Sistem operasi: macOS 11+, Windows 10/11, atau Linux (Ubuntu 20.04+)

Untuk Penggunaan GPU (lebih laju):

NVIDIA GPU dengan VRAM minimum 4GB (disyorkan 8GB+)
CUDA 11.8 atau lebih baru
Apple Silicon (M1/M2/M3) — sokongan Metal terbina dalam

Nota: Model yang lebih kecil (1B-7B parameter) boleh berjalan lancar pada CPU biasa. Model yang lebih besar (13B-70B) memerlukan GPU atau RAM yang banyak.

Cara Install Ollama

Pemasangan di macOS

Kaedah paling mudah adalah memuat turun pakej pemasang dari laman web rasmi Ollama:

Lawati ollama.com
Klik butang "Download"
Buka fail .dmg yang dimuat turun dan seret Ollama ke folder Applications
Lancarkan Ollama — ikon akan muncul di menu bar

Atau melalui Homebrew:

brew install ollama

Pemasangan di Linux (Ubuntu/Debian)

curl -fsSL https://ollama.com/install.sh | sh

Skrip ini akan memasang Ollama dan menyediakan perkhidmatan systemd secara automatik. Selepas pemasangan, Ollama akan berjalan sebagai perkhidmatan latar.

Sahkan pemasangan:

ollama --version
systemctl status ollama

Pemasangan di Windows

Muat turun fail OllamaSetup.exe dari ollama.com
Jalankan pemasang dan ikuti arahan skrin
Ollama akan dipasang dan berjalan secara automatik di latar
Buka PowerShell atau Command Prompt untuk menggunakan arahan ollama

Cara Guna Ollama: Arahan Asas

Memuat Turun dan Menjalankan Model

Arahan paling asas untuk memulakan dengan Ollama:

# Muat turun dan terus jalankan model Llama 3
ollama run llama3

# Muat turun model sahaja tanpa menjalankannya
ollama pull llama3

# Jalankan model yang telah dimuat turun
ollama run llama3

Semasa menjalankan ollama run buat kali pertama, model akan dimuat turun secara automatik (saiz antara 1-40GB bergantung pada model).

Model Popular yang Tersedia di Ollama

llama3 — Model Meta terbaru, sesuai untuk perbualan umum (4.7GB)
llama3:70b — Versi lebih besar, lebih bijak tapi memerlukan RAM banyak (40GB)
mistral — Model Eropah yang laju dan cekap (4.1GB)
gemma:2b — Model Google yang ringan, sesuai untuk perkakasan rendah (1.5GB)
gemma:7b — Versi lebih besar dari Google (5.0GB)
phi3 — Model Microsoft yang cekap untuk komputer riba (2.3GB)
codellama — Khusus untuk penjanaan dan analisis kod (3.8GB)
llava — Model multimodal yang boleh memahami imej (4.5GB)

Pengurusan Model

# Senaraikan model yang telah dimuat turun
ollama list

# Padam model yang tidak diperlukan
ollama rm llama3

# Lihat butiran sesuatu model
ollama show llama3

# Salin model
ollama cp llama3 llama3-backup

Cara Guna Ollama melalui API REST

Ollama menyediakan API REST tempatan pada port 11434, membolehkan anda mengintegrasikannya ke dalam aplikasi anda sendiri.

Penjanaan Teks Asas

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Terangkan kepentingan AI dalam ekonomi Malaysia",
  "stream": false
}'

Mod Perbualan (Chat)

curl http://localhost:11434/api/chat -d '{
  "model": "llama3",
  "messages": [
    {
      "role": "user",
      "content": "Apakah trend AI terkini di Asia Tenggara?"
    }
  ]
}'

Integrasi Python

import requests
import json

def tanya_ollama(pertanyaan, model="llama3"):
    url = "http://localhost:11434/api/chat"
    data = {
        "model": model,
        "messages": [
            {"role": "user", "content": pertanyaan}
        ],
        "stream": False
    }
    response = requests.post(url, json=data)
    return response.json()['message']['content']

# Contoh penggunaan
jawapan = tanya_ollama("Apakah kelebihan AI sumber terbuka?")
print(jawapan)

Atau menggunakan perpustakaan Ollama Python yang rasmi:

pip install ollama

import ollama

response = ollama.chat(
    model='llama3',
    messages=[
        {'role': 'user', 'content': 'Ceritakan tentang perkembangan AI di Malaysia'}
    ]
)
print(response['message']['content'])

Ciri Lanjutan Ollama

Modelfile — Mencipta Model Tersuai

Anda boleh mencipta model tersuai dengan persona dan arahan sistem tersendiri menggunakan Modelfile:

# Cipta fail bernama Modelfile
FROM llama3

SYSTEM """
Anda adalah pembantu AI yang pakar dalam pasaran saham Malaysia dan Bursa Malaysia.
Jawab semua soalan dalam Bahasa Malaysia yang formal.
Sentiasa berikan peringatan risiko apabila membincangkan pelaburan.
"""

PARAMETER temperature 0.7
PARAMETER top_p 0.9

Kemudian bina dan jalankan model tersuai:

ollama create pembantu-saham -f Modelfile
ollama run pembantu-saham

Ollama dengan Open WebUI

Untuk antara muka grafik yang lebih mesra pengguna, pasang Open WebUI yang berfungsi dengan Ollama:

docker run -d -p 3000:8080 
  --add-host=host.docker.internal:host-gateway 
  -v open-webui:/app/backend/data 
  --name open-webui 
  ghcr.io/open-webui/open-webui:main

Kemudian buka pelayar dan lawati http://localhost:3000 untuk antara muka bergrafik.

Menjalankan Pelbagai Model Serentak

Ollama membenarkan anda menjalankan beberapa model pada masa yang sama (jika RAM mencukupi):

# Terminal 1
ollama run llama3

# Terminal 2 (secara serentak)
ollama run mistral

Perbandingan Model: Mana yang Paling Sesuai untuk Anda?

Pemilihan model bergantung kepada keperluan dan perkakasan anda. Sebagai panduan am:

Komputer rendah (8GB RAM, tiada GPU):
Gunakan Gemma:2b atau Phi3 yang ringan tetapi masih mampu menjawab soalan asas dengan baik.

Komputer sederhana (16GB RAM atau GPU 6GB):
Llama 3 (8B) atau Mistral menawarkan keseimbangan terbaik antara keupayaan dan keperluan sumber.

Komputer berkuasa (32GB+ RAM atau GPU 16GB+):
Llama 3 70B atau model saiz penuh lain untuk kualiti yang mendekati model awan premium.

Kes Penggunaan Ollama di Malaysia

Penulis Kandungan dan Blogger

Penulis konten boleh menggunakan Ollama untuk menjana draf artikel, mencadangkan tajuk, atau memeriksa tatabahasa — semuanya secara persendirian tanpa bimbang data mereka digunakan untuk melatih model lain.

Pembangun Perisian

Dengan CodeLlama, pembangun boleh mendapat cadangan kod, penjelasan fungsi, dan debug code tanpa menghantar kod proprietari ke server luaran.

Penyelidik dan Pelajar

Akademik boleh menggunakan Ollama untuk meringkaskan kertas kajian, menjana soalan peperiksaan, atau menerangkan konsep kompleks — tanpa had kadar panggilan API atau kebimbangan privasi.

Perniagaan Kecil dan Sederhana

PKS boleh menggunakan Ollama untuk automasi dokumen dalaman, pemprosesan data pelanggan, atau pembangunan chatbot dalaman tanpa kos langganan bulanan yang berterusan.

Ollama vs Platform AI Awan Lain

Ollama vs Amazon Bedrock:
Ollama sesuai untuk privasi maksimum dan tiada kos berulang, manakala Amazon Bedrock lebih sesuai untuk skalabiliti enterprise dan akses kepada model terbaru tanpa pengurusan infrastruktur.

Ollama vs Hugging Face:
Ollama lebih mudah digunakan untuk inferens langsung, manakala Hugging Face menawarkan ekosistem yang lebih luas untuk latihan model dan kolaborasi komuniti.

Ollama vs Llama Direct:
Ollama menyederhanakan proses menjalankan Llama AI dengan antara muka yang konsisten berbanding setup manual yang lebih kompleks.

Penyelesaian Masalah Biasa Ollama

Masalah: Model berjalan sangat perlahan
Penyelesaian: Pastikan GPU acceleration diaktifkan. Untuk NVIDIA, jalankan nvidia-smi untuk mengesahkan GPU dikesan. Cuba model yang lebih kecil jika perkakasan terhad.

Masalah: Ralat "model not found"
Penyelesaian: Jalankan ollama pull [nama-model] terlebih dahulu sebelum ollama run.

Masalah: Penggunaan RAM yang tinggi
Penyelesaian: Gunakan model dengan saiz parameter yang lebih kecil. Tambah parameter num_ctx yang lebih rendah untuk mengurangkan penggunaan memori.

Masalah: Ollama tidak boleh diakses dari komputer lain dalam rangkaian
Penyelesaian: Tetapkan pemboleh ubah persekitaran OLLAMA_HOST=0.0.0.0 sebelum melancarkan Ollama untuk membenarkan akses dari luar localhost.

Kesimpulan

Ollama telah mengubah cara kita berinteraksi dengan model AI generatif. Dengan menjadikan LLM tempatan semudah memasang aplikasi biasa, Ollama membuka peluang kepada semua orang — dari pelajar hingg ke pembangun profesional — untuk memanfaatkan kuasa AI tanpa bergantung kepada perkhidmatan awan berbayar.

Privasi data, kos sifar setelah pemasangan, dan fleksibiliti penuh dalam penyelarasan model menjadikan Ollama pilihan yang menarik dalam ekosistem AI yang semakin berkembang di Malaysia.

Mulakan dengan model ringan, pelajari cara menggunakan API REST, dan secara beransur-ansur terokai ciri-ciri lanjutan. Dunia AI tempatan menanti anda.

Mengoptimumkan Prestasi Ollama

Untuk mendapatkan prestasi terbaik dari Ollama, terdapat beberapa tetapan yang boleh diubahsuai:

Parameter Utama yang Perlu Diketahui

temperature — Mengawal kreativiti output. Untuk tugasan fakta, gunakan nilai rendah (0.1-0.3)
num_ctx — Saiz tetingkap konteks dalam token. Nilai lebih besar membolehkan lebih banyak konteks tetapi menggunakan lebih RAM
num_gpu — Bilangan lapisan model yang dimuatkan ke GPU untuk prestasi yang lebih baik
top_p — Mengawal kepelbagaian output melalui nucleus sampling

Contoh penggunaan dengan parameter tersuai dalam sesi interaktif Ollama:

ollama run llama3
/set parameter temperature 0.2
/set parameter num_ctx 4096

Menggunakan Ollama dalam Persekitaran Pengeluaran

Untuk persekitaran pengeluaran, adalah disyorkan untuk menjalankan Ollama sebagai perkhidmatan yang diurus:

sudo systemctl enable ollama
sudo systemctl start ollama
sudo systemctl status ollama

Untuk Docker Compose dengan sokongan GPU NVIDIA, anda perlu mengkonfigurasikan resources.reservations.devices dalam fail docker-compose.yml. Pendekatan ini membolehkan pengurusan sumber yang lebih baik dan restart automatik sekiranya berlaku kegagalan.

Integrasi Ollama dengan Alat Pembangunan Lain

LangChain dan Ollama

Ollama boleh diintegrasikan dengan rangka kerja LangChain untuk membina aplikasi AI yang lebih kompleks:

pip install langchain-ollama

Setelah dipasang, anda boleh menggunakan OllamaLLM dalam LangChain untuk membina rantaian pemprosesan teks yang lebih kompleks, termasuk RAG (Retrieval Augmented Generation), ejen AI, dan aliran kerja berbilang langkah — semuanya berjalan di perkakasan tempatan anda.

Ollama dengan Continue (VS Code Extension)

Continue adalah sambungan VS Code yang menggunakan Ollama sebagai backend, memberikan pengalaman GitHub Copilot-like sepenuhnya secara tempatan:

Pasang sambungan Continue dari VS Code Marketplace
Konfigurasikan untuk menggunakan Ollama sebagai penyedia model
Nikmati cadangan kod dan sembang dengan AI tanpa menghantar kod anda ke awan

Pendekatan ini amat sesuai untuk pembangun yang bekerja dengan kod proprietari atau maklumat sulit syarikat.

Ollama dengan LibreChat

LibreChat ialah antara muka sembang sumber terbuka yang menyokong pelbagai penyedia AI, termasuk Ollama. Dengan LibreChat, anda boleh:

Beralih antara model Ollama yang berbeza dalam satu antara muka
Menyimpan sejarah perbualan secara tempatan
Berkongsi akses kepada Ollama dengan ahli pasukan lain dalam rangkaian tempatan
Menggunakan pemalam dan ciri lanjutan yang tidak tersedia dalam Ollama CLI sahaja

Masa Depan Ollama dan AI Tempatan

Ekosistem AI tempatan berkembang dengan pesat. Dengan peningkatan berterusan dalam kecekapan model dan perkakasan yang semakin berpatutan, AI tempatan akan menjadi lebih mudah diakses oleh semua orang.

Tren yang sedang berkembang termasuk model yang lebih kecil tetapi lebih berkuasa — model berparameter 1-3B yang setanding dengan model 7B generasi sebelumnya. Selain itu, sokongan penuh untuk berbilang modaliti (teks, imej, audio) dan integrasi yang lebih dalam dengan alat produktiviti sedia ada semakin meluas.

Bagi pengguna di Malaysia, ini bermakna masa depan di mana anda boleh menjalankan pembantu AI peribadi yang benar-benar persendirian — tidak ada syarikat luar yang boleh mengakses data atau perbualan anda — terus dari komputer anda sendiri tanpa sambungan internet.

Dengan harga GPU yang semakin turun dan model yang semakin cekap, pelaburan dalam infrastruktur AI tempatan adalah langkah strategik yang bijak untuk individu dan perniagaan di Malaysia yang ingin menguasai teknologi masa depan ini.

🔤 Rekomendasi: Grammarly

Sebelum hantar apa-apa tulisan dalam Bahasa Inggeris — semak dulu dengan Grammarly. Pelan percuma dah cukup untuk kegunaan harian. Premium (RM35/bulan) tambah cadangan gaya penulisan + penjana ayat AI.

→ Cuba Grammarly Percuma