当地时辰12月6日体育游戏app平台,OpenAI公布第二日作为主题:推出了强化微调(Reinforcement Fine-Tuning),匡助树立者和机器学习工程师打造针对特定复杂鸿沟任务的群众模子。OpenAI CEO Sam Altman在X发帖称,强化微调的后果相配棒,是他本年最大的惊喜之一,期待看到宇宙利用这种功能的创造。
该面目通过全新的模子定制本领,让树立者不错使用高质料任务集对模子进行微调,并利用参考谜底评估模子的反应,从而普及模子在特定鸿沟任务中的推理能力和准确性。
OpenAI的策划员称,强化微调并不是只教模子模子输出,它的运作式样是,当模子发现一个问题的时候,策划者给模子空间区仔细念念考这个问题,然后评估模子给出的最终解答,摆布强化学习,策划者不错强化产生正确谜底的念念路,禁锢产生子虚谜底的念念路,只需要“几十个例子”致使12个例子,模子就能以有用的新式样学习特定鸿沟的推理。
OpenAI策划员演示,强化微调后的o1 mini测试通过率致使比郑再版o1高24%体育游戏app平台,比未强化微调的o1 mini提高了82%。