Il modello o3 più potente di OpenAI è stato esposto per frode, ottenendo accesso privilegiato in anticipo alla banca delle domande del test FrontierMath
Un appaltatore di EpochAI di nome "Meemi" ha rivelato sul forum Less Wrong che OpenAI non solo ha fornito supporto finanziario per il test di riferimento FrontierMath, ma ha anche ottenuto accesso privilegiato alla banca delle domande del test.
Tamay Besiroglu, Vice Direttore e uno dei co-fondatori di EpochAI, ha presto ammesso questo sulla piattaforma X. Abbiamo commesso un errore nel non divulgare prima il coinvolgimento di OpenAI in FrontierMath. Il nostro contratto ci proibiva di farlo prima che o3 fosse rilasciato. Col senno di poi, avremmo dovuto sforzarci di più per una maggiore trasparenza prima. Riconosciamo questo e promettiamo di fare meglio in futuro.
Elliot Glazer, Capo Matematico di EpochAI, ha riconosciuto di non aver divulgato proattivamente informazioni sul finanziamento del settore durante il progetto e si è scusato con i matematici che potrebbero non aver partecipato se avessero saputo in anticipo. Riguardo ai punteggi o3, ha espresso fiducia nell'accuratezza dei punteggi riportati da OpenAI ma ha sottolineato che EpochAI deve verificare attraverso un set di test di ritenzione indipendente in fase di sviluppo e ha promesso che i punteggi di valutazione di questo set saranno resi pubblici. Quando gli è stato chiesto lo stato di questo set di ritenzione, Glazer ha chiarito che è ancora in fase di sviluppo piuttosto che completato.
Si riporta che FrontierMath è un benchmark di valutazione delle capacità di ragionamento matematico avanzato altamente ponderato. È stato creato congiuntamente da EpochAI con la partecipazione di oltre 60 matematici di alto livello, inclusi diversi vincitori della Medaglia Fields e esperti creatori di problemi per le competizioni dell'Olimpiade Matematica Internazionale.
Esclusione di responsabilità: il contenuto di questo articolo riflette esclusivamente l’opinione dell’autore e non rappresenta in alcun modo la piattaforma. Questo articolo non deve essere utilizzato come riferimento per prendere decisioni di investimento.
Ti potrebbe interessare anche

GAIN ufficiale: è in corso un'indagine su problemi relativi all'emissione anomala