Golden Finance reported that a contractor named 'Meemi' from Epoch AI revealed on the LessWrong forum that OpenAI not only provides financial support for the FrontierMath Benchmark test, but also has privileged access to the test question bank. And this may also be an important reason for the significant improvement in the performance of o3 in a short period of time.
Tabel ini menunjukkan bahwa o3 memiliki akses istimewa ke FrontierMath di bawah pengaturan Epoch AI, seperti yang diakui oleh Carina Hong, mahasiswa doktoral matematika dari Stanford University. Namun, setelah bocoran dari kontraktor, catatan kemajuan tersebut menghadapi reputasi yang merosot. Menghadapi kontroversi, Tamay Besiroglu, Wakil Direktur dan salah satu pendiri Epoch AI, dengan cepat mengakui hal ini di platform X.
Dilaporkan bahwa FrontierMath adalah Benchmark evaluasi kemampuan inferensi matematika tingkat lanjut yang sangat berat. Ini dibangun oleh Epoch AI bersama lebih dari 60 matematikawan papan atas, termasuk pemenang Hadiah Fields dan perumus senior Olimpiade Matematika Internasional.
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Model OpenAI o3 terkuat dituduh melakukan kecurangan, mendapatkan hak akses istimewa untuk mengakses bank soal FrontierMath sebelumnya
Golden Finance reported that a contractor named 'Meemi' from Epoch AI revealed on the LessWrong forum that OpenAI not only provides financial support for the FrontierMath Benchmark test, but also has privileged access to the test question bank. And this may also be an important reason for the significant improvement in the performance of o3 in a short period of time. Tabel ini menunjukkan bahwa o3 memiliki akses istimewa ke FrontierMath di bawah pengaturan Epoch AI, seperti yang diakui oleh Carina Hong, mahasiswa doktoral matematika dari Stanford University. Namun, setelah bocoran dari kontraktor, catatan kemajuan tersebut menghadapi reputasi yang merosot. Menghadapi kontroversi, Tamay Besiroglu, Wakil Direktur dan salah satu pendiri Epoch AI, dengan cepat mengakui hal ini di platform X. Dilaporkan bahwa FrontierMath adalah Benchmark evaluasi kemampuan inferensi matematika tingkat lanjut yang sangat berat. Ini dibangun oleh Epoch AI bersama lebih dari 60 matematikawan papan atas, termasuk pemenang Hadiah Fields dan perumus senior Olimpiade Matematika Internasional.