Liputan6.com, Jakarta - OpenAI, perusahaan di balik ChatGPT, baru saja merilis hasil studi internal dengan hasil mengejutkan. Lewat studi internal tersebut, perusahaan ingin memberikan gambaran lebih realistis tentang bagaimana model-model AI dapat membantu pekerjaan manusia sehari-hari.
Mengutip Techradar, Sabtu (4/10/2025), OpenAI menggunakan metode pengukuran baru bernama GDPval. Tujuannya, mereka dapat menilai performa AI bukan lewat uji teknis abstrak, tetapi menggunakan simulasi tugas kerja nyata.
Hasilnya, Claude Opus 4.1, model AI besutan Anthropic justru tampil lebih unggul. Claude AI tersebut juga sukses mengalahkan dua model besar lainnya, seperti Gemini milik Google dan Grok besutan xAI.
“Misi kami adalah memastikan kecerdasan buatan (AI) umum bisa bermanfaat bagi semua orang. Sebagai bagian dari misi itu, kami ingin secara transparan membagikan kemajuan” ujar OpenAI dalam pernyataan resminya.
Apa Itu GDPval?
GDPval sendiri terinspirasi dari konsep Produk Domestik Bruto (PDB). Bedanya, tolak ukur ini dipakai untuk menilai kontribusi AI dalam menyelesaikan pekerjaan manusia.
Raksasa teknologi ini sudah menguji 44 jenis pekerjaan, mulai dari pengembangan software, pengacara, hingga insinyur mesin.
Tugas yang diberikan juga dekat dengan aktivitas sehari-hari, seperti membalas email pelanggan kecewa, hingga memeriksa harga tidak konsisten pada pesanan pembelian.
Dengan cara ini, OpenAI ingin menampilkan gambaran realistis tentang sejauh mana AI bisa membantu pekerjaan sehari-hari, bukan sekadar lulus benchmark teknis.
Hasil dari pengujian GDPval menunjukkan bahwa Claude Opus 4.1 memiliki win rate tertinggi, yaitu 47,6 persen.
Di urutan kedua ada 'ChatGPT-5 high' dengan win rate 38,8 persen. Sementara itu, Grok 4 dan Gemini 2.5 Pro masih lebih unggul berada di atas ChatGPT-4o hanya mencatatkan skor 12,4 persen.
Menariknya lagi, studi ini juga menemukan Claude menjadi paling unggul dan mendominasi di delapan dari sembilan sektor industri yang diuji, termasuk di bidang pemerintahan dan layanan kesehatan.
Latar Belakang dan Implikasi Studi
Keputusan OpenAI untuk merilis studi yang justru menampilkan keunggulan pesaingnya bisa dibilang merupakan bagian dari komitmen mereka terhadap transparansi.
Penelitian ini sendiri dilakukan oleh tim Riset Ekonomi OpenAI bersama ekonom Harvard, David Deming.
Yang membuat temuan ini semakin menarik adalah waktunya. Studi ini keluar hanya seminggu setelah OpenAI mengungkap bahwa mayoritas pengguna ChatGPT (sekitar 70 persen) ternyata lebih banyak memakainya di rumah, bukan untuk urusan pekerjaan.
Hasil studi GDPval yang menempatkan Claude di posisi teratas untuk tugas-tugas kerja bisa menjadi bahan evaluasi bagi OpenAI.
Ada kemungkinan perusahaan akan lebih memfokuskan kembali pengembangan produknya agar lebih sesuai dengan basis penggunanya yang terus berubah.