ARC-AGI-3: AI Terbaik Dunia Skor Bawah 1%

Q: Kenapa prize ini wujud?

Francois Chollet, pencipta ARC-AGI, berpendapat bahawa kecerdasan sebenar adalah keupayaan untuk belajar dan mengadaptasikan diri kepada situasi baharu dengan sumber terhad — bukan menghafal jawapan dari training data besar. Prize ini mendorong penyelidik untuk fokus pada jenis kecerdasan ini.

⚠️ Pendedahan Afiliasi: Artikel ini mungkin mengandungi pautan afiliasi. Kami mungkin mendapat komisyen kecil jika anda membeli melalui pautan kami, tanpa kos tambahan kepada anda. Ini membantu kami terus menyediakan kandungan percuma berkualiti.

Korang pernah main puzzle video game yang nampak mudah tapi sebenarnya mencabar?

Pendedahan: Artikel ini mengandungi pautan affiliate. Jika anda mendaftar melalui pautan kami, kami mungkin menerima komisyen kecil — tanpa sebarang kos tambahan kepada anda. Ini membantu kami terus menghasilkan panduan percuma dalam Bahasa Melayu.

Bayangkan puzzle yang budak sekolah boleh selesaikan dalam beberapa minit — tapi AI terbaik dunia, yang boleh tulis esei universiti dan hafal jutaan fakta, hanya mampu selesaikan kurang dari 1 daripada 100 soalan yang sama.

Ini bukan cerita rekaan. Ini hasil ARC-AGI-3 — benchmark AI terbaru yang dilancar pada 25 Mac 2026 oleh ARC Prize Foundation, dan ia sedang menjadi topik perbincangan hangat dalam komuniti AI global.

Isi Kandungan

Apa Itu ARC-AGI-3?

ARC-AGI bermaksud Abstraction and Reasoning Corpus for Artificial General Intelligence — satu set ujian yang direka khusus untuk mengukur sejauh mana AI boleh berfikir macam manusia.

Versi terbaru, ARC-AGI-3, dilancar pada 25 Mac 2026 dengan beberapa perubahan besar berbanding versi sebelumnya:

ARC-AGI-3 vs Versi Lama

Ciri	ARC-AGI-1/2 (Lama)	ARC-AGI-3 (Baru)
Format	Gambar grid statik	Persekitaran video game interaktif
Bilangan soalan	Beberapa ratus	1,000+ levels
Jenis ujian	Pattern matching	Sebab-akibat + adaptasi masa nyata
Prize pool	$1M+	$2 juta
Skor AI terbaik	~4-8% (o3)	< 1%
Skor manusia biasa	~85%	100%

ARC-AGI-3 bukan sekadar "soalan susah" — ia adalah ujian pertama yang menggunakan persekitaran video game interaktif sebagai medium pengujian. AI perlu belajar peraturan dari pengalaman, bukan dari data training yang diberikan.

Kenapa AI Gagal Ujian Ini?

Ini soalan yang ramai orang tertanya-tanya. Kalau ChatGPT boleh tulis tesis, Claude boleh analisis kontrak undang-undang, dan Gemini boleh generate kod program — kenapa ujian video game pun gagal?

Jawapannya terletak pada jenis kecerdasan yang diuji.

Dua Jenis Kecerdasan: Hafalan vs Penaakulan

AI sekarang sangat baik dalam:

Menghafal dan mengekstrak corak dari data training yang besar
Menjawab soalan berdasarkan maklumat yang pernah dilihat sebelumnya
Menghasilkan output berdasarkan contoh yang ada dalam training data

AI masih lemah dalam:

Belajar peraturan baharu dari pengalaman terhad (few-shot learning dari persekitaran baru)
Membuat kesimpulan kausal (sebab-akibat) dalam sistem yang kompleks
Mengadaptasikan pemahaman kepada konteks yang benar-benar baharu

ARC-AGI-3 menguji kategori kedua. Setiap level dalam benchmark ini mempunyai peraturan tersendiri yang AI tidak pernah lihat sebelumnya dalam training data. Ia perlu memikirkan peraturan tersebut dari pemerhatian — macam cara manusia belajar bermain video game baru.

Contoh Mudah: Permainan Kotak

Bayangkan satu grid 5×5. Ada kotak merah di tengah. Ada perintah: "pindahkan kotak merah ke sudut."

Manusia terus faham: tolak kotak ke tepi atas-kiri. Dalam 5 saat.

AI perlu: matching corak ini kepada semua contoh "pindah objek" yang pernah dilihat → tapi kalau grid layout ini unik → probabiliti jawapan betul menurun drastik.

Ini bukan tentang kecerdasan otak — ini tentang jenis pemprosesan yang berbeza.

Siapa Yang Menguji Dan Apa Hasilnya?

ARC Prize Foundation — organisasi bukan untung yang diasaskan oleh pakar AI Francois Chollet — menguji model-model AI paling canggih yang ada sekarang:

Model AI	Syarikat	Skor ARC-AGI-3
o3 (terbaik OpenAI)	OpenAI	< 1%
Gemini 2.5 Pro	Google	< 1%
Claude Opus 4.6	Anthropic	< 1%
Manusia biasa	—	~100%

Skor ini mengejutkan ramai orang — termasuk penyelidik AI sendiri. Model yang boleh lulus ujian perubatan, undang-undang, dan matematik universiti, hanya mampu selesaikan kurang dari 1 dalam 100 soalan ARC-AGI-3.

Perbandingan menarik: Pada ARC-AGI-1 (2020), AI terbaik skor 0%. Pada ARC-AGI-2 (2024), o3 mencapai ~4-8%. Kini pada ARC-AGI-3, bahkan o3 jatuh semula bawah 1% — kerana benchmark semakin mencabar.

$2 Juta Hadiah — Siapa Boleh Menang?

ARC Prize Foundation menawarkan $2 juta kepada sesiapa — individu, pasukan penyelidik, atau syarikat AI — yang boleh membina sistem yang lulus ARC-AGI-3 dengan skor yang setanding dengan manusia.

Ini bukan pertama kali mereka buat ini. Prize pool sebelumnya (ARC-AGI-2) sebahagiannya dimenangi oleh o3 dari OpenAI pada akhir 2024 — tapi kemudian benchmark dinaikkan lagi.

Kenapa prize ini wujud?

Francois Chollet, pencipta ARC-AGI, berpendapat bahawa kecerdasan sebenar adalah keupayaan untuk belajar dan mengadaptasikan diri kepada situasi baharu dengan sumber terhad — bukan menghafal jawapan dari training data besar. Prize ini mendorong penyelidik untuk fokus pada jenis kecerdasan ini.

Apa Ini Bermakna Untuk Masa Depan AI?

ARC-AGI-3 menyampaikan satu mesej penting: AI yang ada sekarang, walaupun yang paling canggih, masih jauh dari apa yang kita panggil "AGI" (Artificial General Intelligence).

AGI — Apa Yang Dimaksudkan

AGI adalah konsep AI yang boleh melakukan mana-mana tugas intelektual yang boleh dilakukan oleh manusia — termasuk belajar perkara baru dari pengalaman terhad, berfikir secara abstrak, dan memindahkan pengetahuan dari satu domain ke domain lain.

Berdasarkan ARC-AGI-3:

AI sekarang tidak memenuhi definisi AGI
Kebolehan AI semasa adalah narrow intelligence yang sangat kuat dalam domain tertentu
Manusia masih jauh lebih baik dalam penaakulan abstrak umum

Tiga Perspektif Berbeza

Perspektif optimis: AI masih maju dengan cepat. ARC-AGI-2 hampir tidak ada AI yang boleh lulus — kini beberapa model hampir mencecah 1%. Dalam 5-10 tahun, gap mungkin akan mengecil.

Perspektif realistik: Gap antara 1% dan 100% adalah besar. ARC-AGI-3 menguji kemahiran asas yang manusia anggap remeh. Ini menunjukkan AI perlu pendekatan yang berbeza sepenuhnya, bukan sekadar lebih banyak training data.

Perspektif kritikal: Benchmark boleh dipersoalkan. Ada yang berpendapat "skor manusia 100%" mungkin tidak sepenuhnya tepat — ada manusia yang juga struggle dengan ujian abstraksi. Namun konsensus umum: AI masih jauh ketinggalan.

Apa Maksudnya Untuk Pengguna AI Di Malaysia?

Untuk pengguna harian macam korang yang guna ChatGPT, Claude, atau Gemini untuk kerja dan belajar — ini realiti penting untuk difahami:

AI yang korang guna setiap hari masih sangat berguna. Ia boleh tulis, summarize, translate, coding, analisis data, dan banyak lagi. Ini kemahiran real yang memberi nilai nyata.

Tapi AI ini bukan "lebih pandai dari manusia" dalam semua aspek. Ia pandai dalam perkara yang ada dalam training data. Untuk situasi yang benar-benar novel dan memerlukan adaptasi, manusia masih lebih baik.

Implikasi praktikal:

Guna AI sebagai alat, bukan sebagai pengganti pemikiran
Untuk tugasan kreatif dan penaakulan kompleks — semak semula output AI
Untuk fakta spesifik tentang situasi baru — verify dari sumber asal
Kemahiran berfikir kritis korang masih relevan dan berharga, walaupun AI semakin canggih

Adakah AI Akan Pernah Lulus ARC-AGI-3?

Ini soalan yang para penyelidik AI sedang berusaha jawab.

Ada beberapa pendekatan yang sedang dikaji untuk improve skor ARC-AGI:

1. Program Synthesis Bina AI yang boleh menulis program komputer untuk selesaikan puzzle — bukan hanya predict jawapan. Ini pendekatan yang digunakan oleh beberapa pasukan untuk ARC-AGI-2.

2. Neuro-symbolic AI Gabungkan neural network (macam yang ChatGPT guna) dengan symbolic reasoning (logik formal). Ini percubaan untuk dapat yang terbaik dari dua dunia.

3. Few-shot Learning yang lebih baik Reka bentuk model yang boleh belajar dari 3-5 contoh sahaja, bukan juta-juta contoh training data. Ini lebih dekat dengan cara manusia belajar.

4. World models Bina AI yang ada model mental tentang bagaimana dunia berfungsi — bukan sekadar statistical patterns. Meta AI (perusahaan Facebook) aktif dalam penyelidikan ini.

Kemajuan ada, tapi lambat berbanding aspek lain AI. ARC Prize Foundation sengaja naikkan difficulty benchmark ARC-AGI-3 untuk pastikan prize belum boleh dimenangkan secara mudah — menekan komuniti penyelidikan untuk cari pendekatan yang benar-benar baharu.

Soalan Lazim

Apa itu ARC-AGI-3 dalam bahasa mudah? Ia adalah set ujian puzzle interaktif yang direka untuk mengukur sejauh mana AI boleh berfikir macam manusia dalam situasi yang benar-benar baharu. Manusia mudah lulus, AI terbaik dunia hampir gagal sepenuhnya.

Kenapa penting kalau AI boleh buat perkara lain yang lebih susah? Kemampuan AI dalam menulis esei atau coding bergantung kepada pattern dari training data. ARC-AGI-3 menguji sesuatu yang berbeza: boleh AI belajar peraturan baru dari contoh terhad? Ini kemahiran yang manusia ada secara semula jadi.

Adakah ini bermakna AI tidak akan jadi lebih bijak? Tidak. AI sedang berkembang pesat. ARC-AGI-3 menunjukkan di mana AI sekarang — bukan di mana ia akan berada 5 tahun dari sekarang.

Siapa Francois Chollet dan kenapa pendapatnya penting? Beliau adalah pengasas Keras (framework deep learning popular) dan pencipta benchmark ARC-AGI asal. Merupakan suara kritikal dalam debat AGI — berpendapat bahawa hanya kerana AI boleh lulus ujian IQ atau perubatan, tidak bermakna ia "pandai" dalam erti kata sebenar.

Boleh ke manusia biasa cuba ARC-AGI-3? Ya — ARC Prize Foundation menjemput orang awam untuk cuba benchmark ini di laman web mereka (arcprize.org). Ia direka untuk mudah bagi manusia tapi mencabar untuk AI.

Kesimpulan

ARC-AGI-3 adalah cermin yang jujur untuk industri AI. Ia mengingatkan kita bahawa AI yang kita ada sekarang — walaupun hebat dalam banyak tugasan — masih beroperasi dalam paradigma yang berbeza dari kecerdasan manusia.

Ini bukan berita buruk. Ini realiti yang membantu kita guna AI dengan lebih bijak: kenal pasti apa AI boleh buat dengan baik, dan apa yang masih memerlukan penaakulan manusia.

$2 juta hadiah menunggu sesiapa yang boleh selesaikan cabaran ini. Mungkin solusi datang dari universiti Malaysia juga — siapa tahu.

Rujukan

🔤 Rekomendasi: Grammarly

Sebelum hantar apa-apa tulisan dalam Bahasa Inggeris — semak dulu dengan Grammarly. Pelan percuma dah cukup untuk kegunaan harian. Premium (RM35/bulan) tambah cadangan gaya penulisan + penjana ayat AI.

→ Cuba Grammarly Percuma

ARC-AGI-3: AI Terbaik Dunia Skor Bawah 1% — Manusia Mudah Lulus