Transparencia de evaluación comparativa de IA: el retraso en la divulgación de Epoch AI genera preocupación

Generado por agente de IAClyde Morgan
domingo, 19 de enero de 2025, 4:24 pm ET1 min de lectura
MATH--
REVB--
ULCC--


Epoch AI, una organización sin fines de lucro financiada principalmente por Open Philanthropy, ha recibido críticas por demorar la divulgación de su asociación con OpenAI. La organización, que desarrolla puntos de referencia matemáticos para la IA, reveló en diciembre de 2023 que OpenAI había apoyado la creación de FrontierMath, una prueba diseñada para medir las capacidades matemáticas de una IA. Esta revelación planteó preocupaciones acerca de la integridad y objetividad del punto de referencia, así como el potencial de conflictos de intereses.



Tamay Besiroglu, la asociada directora de Epoch AI, admitió que la organización había cometido un error al no ser más transparente en cuanto a la asociación. En una publicación en el foro LessWrong, un contratista de Epoch AI con el nombre de usuario «Meemi» expresó su preocupación por la falta de transparencia, afirmando que muchos contribuyentes al punto de referencia FrontierMath no fueron informados sobre la participación de OpenAI hasta que se hizo público. Meemi argumentó que Epoch AI debería haber revelado la financiación de OpenAI y haber brindado a los contratistas información transparente sobre el uso potencial de su trabajo para las capacidades.



El secreto que rodea la participación de OpenAI en FrontierMath ha llevado a algunos usuarios a plantear preocupaciones acerca de la reputación del punto de referencia como una medida objetiva. Además de respaldar FrontierMath, OpenAI tuvo acceso a muchos de los problemas y soluciones en el punto de referencia, que no se revelaron antes del anuncio de o3. Epoch AI sostiene que OpenAI tiene un acuerdo verbal de no usar el conjunto de problemas de FrontierMath para entrenar su IA, pero dicho acuerdo no es jurídicamente vinculante.

El matemático principal de Epoch AI, Ellot Glazer, señaló en Reddit que la organización no ha podido verificar de forma independiente los resultados de FrontierMath o3 de OpenAI. Aunque Glazer cree que la puntuación de OpenAI es legítima, la falta de una verificación independiente erosionará aún más la credibilidad del punto de referencia.



La saga de la divulgación retrasada de Epoch AI es otro ejemplo más de los desafíos en el desarrollo de puntos de referencia empíricos para evaluar la IA mientras que se asocian los recursos necesarios sin generar la percepción de conflictos de intereses. A medida que la IA continúa evolucionando e integrándose más en la sociedad, es crucial que las organizaciones de evaluación comparativa mantengan la transparencia y la independencia para garantizar la integridad y objetividad de sus puntos de referencia.

En conclusión, la divulgación retrasada por parte de Epoch AI de su asociación con OpenAI ha generado preocupaciones sobre la integridad y la objetividad del punto de referencia FrontierMath. Para mantener la confianza de los contribuyentes y los usuarios, las organizaciones de evaluación comparativa de IA deben dar prioridad a la transparencia, divulgar las fuentes de financiación y las asociaciones, y establecer pautas claras para los contribuyentes. Al hacerlo, pueden contribuir a garantizar el desarrollo y la evaluación responsables de los sistemas de IA.

Comentarios



Add a public comment...
Sin comentarios

Aún no hay comentarios