Claude Opus 4.1 Kalahkan GPT-5 di Studi Internal OpenAI

1 day ago 2

informasi online berita online kabar online liputan online kutipan online slot slot gacor slot maxwin slot online slot game slot gacor online slot maxwin online slot game online slot game gacor online slot game maxwin online demo slot demo slot online demo slot game demo slot gacor demo slot maxwin demo slot game online demo slot gacor online demo slot maxwin online demo slot game gacor online demo slot game maxwin online rtp slot rtp slot online rtp slot game rtp slot gacor rtp slot maxwin rtp slot game online rtp slot gacor online rtp slot maxwin online rtp slot game gacor online rtp slot game maxwin online informasi penting online berita penting online kabar penting online liputan penting online kutipan penting online informasi online terbaru berita online terbaru kabar online terbaru liputan online terbaru kutipan online terbaru informasi online terkini berita online terkini kabar online terkini liputan online terkini kutipan online terkini informasi online terpercaya berita online terpercaya kabar online terpercaya liputan online terpercaya kutipan online terpercaya informasi online berita online kabar online liputan online kutipan online informasi akurat berita akurat kabar akurat liputan akurat kutipan akurat informasi penting berita penting kabar penting liputan penting kutipan penting informasi viral berita viral kabar viral liputan viral kutipan viral informasi terbaru berita terbaru kabar terbaru liputan terbaru kutipan terbaru informasi terkini berita terkini kabar terkini liputan terkini kutipan terkini informasi terpercaya berita terpercaya kabar terpercaya liputan terpercaya kutipan terpercaya informasi hari ini berita hari ini kabar hari ini liputan hari ini kutipan hari ini informasi viral online berita viral online kabar viral online liputan viral online kutipan viral online informasi akurat online berita akurat online kabar akurat online liputan akurat online kutipan akurat online slot slot gacor slot maxwin slot online slot game slot gacor online slot maxwin online slot game online slot game gacor online slot game maxwin online demo slot demo slot online demo slot game demo slot gacor demo slot maxwin demo slot game online demo slot gacor online demo slot maxwin online demo slot game gacor online demo slot game maxwin online rtp slot rtp slot online rtp slot game rtp slot gacor rtp slot maxwin rtp slot game online rtp slot gacor online rtp slot maxwin online rtp slot game gacor online rtp slot game maxwin online

Liputan6.com, Jakarta - OpenAI, perusahaan di balik ChatGPT, baru saja merilis hasil studi internal dengan hasil mengejutkan. Lewat studi internal tersebut, perusahaan ingin memberikan gambaran lebih realistis tentang bagaimana model-model AI dapat membantu pekerjaan manusia sehari-hari.

Mengutip Techradar, Sabtu (4/10/2025), OpenAI menggunakan metode pengukuran baru bernama GDPval. Tujuannya, mereka dapat menilai performa AI bukan lewat uji teknis abstrak, tetapi menggunakan simulasi tugas kerja nyata.

Hasilnya, Claude Opus 4.1, model AI besutan Anthropic justru tampil lebih unggul. Claude AI tersebut juga sukses mengalahkan dua model besar lainnya, seperti Gemini milik Google dan Grok besutan xAI.

“Misi kami adalah memastikan kecerdasan buatan (AI) umum bisa bermanfaat bagi semua orang. Sebagai bagian dari misi itu, kami ingin secara transparan membagikan kemajuan” ujar OpenAI dalam pernyataan resminya.

Apa Itu GDPval?

OpenAI. (Doc. OpenAI)... Selengkapnya

GDPval sendiri terinspirasi dari konsep Produk Domestik Bruto (PDB). Bedanya, tolak ukur ini dipakai untuk menilai kontribusi AI dalam menyelesaikan pekerjaan manusia.

Raksasa teknologi ini sudah menguji 44 jenis pekerjaan, mulai dari pengembangan software, pengacara, hingga insinyur mesin.

Tugas yang diberikan juga dekat dengan aktivitas sehari-hari, seperti membalas email pelanggan kecewa, hingga memeriksa harga tidak konsisten pada pesanan pembelian.

Dengan cara ini, OpenAI ingin menampilkan gambaran realistis tentang sejauh mana AI bisa membantu pekerjaan sehari-hari, bukan sekadar lulus benchmark teknis.

Hasil dari pengujian GDPval menunjukkan bahwa Claude Opus 4.1 memiliki win rate tertinggi, yaitu 47,6 persen.

Di urutan kedua ada 'ChatGPT-5 high' dengan win rate 38,8 persen. Sementara itu, Grok 4 dan Gemini 2.5 Pro masih lebih unggul berada di atas ChatGPT-4o hanya mencatatkan skor 12,4 persen.

Menariknya lagi, studi ini juga menemukan Claude menjadi paling unggul dan mendominasi di delapan dari sembilan sektor industri yang diuji, termasuk di bidang pemerintahan dan layanan kesehatan.

Latar Belakang dan Implikasi Studi

OpenAI. (Doc. OpenAI)... Selengkapnya

Keputusan OpenAI untuk merilis studi yang justru menampilkan keunggulan pesaingnya bisa dibilang merupakan bagian dari komitmen mereka terhadap transparansi.

Penelitian ini sendiri dilakukan oleh tim Riset Ekonomi OpenAI bersama ekonom Harvard, David Deming.

Yang membuat temuan ini semakin menarik adalah waktunya. Studi ini keluar hanya seminggu setelah OpenAI mengungkap bahwa mayoritas pengguna ChatGPT (sekitar 70 persen) ternyata lebih banyak memakainya di rumah, bukan untuk urusan pekerjaan.

Hasil studi GDPval yang menempatkan Claude di posisi teratas untuk tugas-tugas kerja bisa menjadi bahan evaluasi bagi OpenAI.

Ada kemungkinan perusahaan akan lebih memfokuskan kembali pengembangan produknya agar lebih sesuai dengan basis penggunanya yang terus berubah.