你的位置:高中自慰 > 来吧综艺网 > 777me 暖和o1必备GitHub仓库,上线3天狂揽1.5k星!英伟达工程师出品,容或握续更新

来吧综艺网
777me 暖和o1必备GitHub仓库,上线3天狂揽1.5k星!英伟达工程师出品,容或握续更新
发布日期:2024-09-19 17:46    点击次数:113

777me 暖和o1必备GitHub仓库,上线3天狂揽1.5k星!英伟达工程师出品,容或握续更新

暖和 o1 必备的 GitHub 库777me,它来了!

上线3 天狂揽1.5k 星,一跃登上 GitHub 趋势榜!

这个库专注于汇集与 o1 干系的推理技能论文、博客和面貌等资源,供环球研究商量,并在握续更新中。

网友们对它予以高度评价:

科技大 V 说它是"拆解草莓的逆向工程"。

也有网友径直提倡表扬:"研究 o1,看它就够了!"

真有这样牛?我们一王人来望望到底怎样个事儿!

干货满满

在这个名为Awesome-LLM-Strawberry的 GitHub 库中,涵盖了多半对于 o1 的信息。

量子位为环球整理了一下迄今为止发布的干系硬核实质:

对于 o1 的博客

博客:Learning to Reason with LLMs

作家:OpenAI

贯穿:https://openai.com/index/learning-to-reason-with-llms/

抽象:这篇博客先容了 OpenAI o1 的纯熟方法,其中包括链式推理、自我月旦、考证、多设施推理、任务领会和蒙特卡洛树搜索等技能。

博客:OpenAI o1-mini

作家:OpenAI

贯穿:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

抽象:先容了o1 mini模子在推理资本和遵守方面的编削,在保握高推感性能的同期,显赫裁减了打算和开动资本。

博客:Finding GPT-4 ’ s mistakes with GPT-4

作家:OpenAI

贯穿:https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

抽象:商量了怎样欺诈 GPT-4 模子本人来发现和修正生成的失误。著述中提到的"自我审查方法"通过双重评估提高了失误检测的准确性,从而让模子输出的实质变得愈加可靠。(著述发表时,已有 OpenAI 超等对王人团队成员下野,因此也被称为团队的"遗作")

博客:Summary of what we have learned during AMA hour with the OpenAI o1 team

作家:Tibor Blaho

贯穿:https://twitter-thread.com/t/1834686946846597281

� �:https://x.com/btibor91/status/1834686946846597281

抽象:这篇博客追念了 OpenAI 团队在 AMA(问答枢纽)等共享的对于 o1 模子的主要实质和特质。

其中包括:模子的推理范式以及鸿沟和性能、输入 token 险阻文和模子才气、CoT(念念维链)推理、API 和使用舍弃、订价、微长入扩张等实质。

博客:OpenAI ’ s Strawberry, LM self-talk, inference scaling laws, and spending more on inference

作家:Nathan Lambert

贯穿:https://www.interconnects.ai/p/openai-strawberry-and-inference-scaling-laws

抽象:著述探讨了 OpenAI 的新活" Strawberry "以及推理扩张定律,强调了推理打算在晋升 AI 才气方面的重要性。而相较于单纯扩大模子鸿沟,作家合计增多推理打算的参加能更有用地提高模子性能。(具有前瞻性的一篇博客,著述发布的时候 o1 还没发布)

博客:Reverse engineering OpenAI ’ s o1

作家:Nathan Lambert

贯穿:https://www.interconnects.ai/p/reverse-engineering-openai-o1

抽象:著述介意讲了 OpenAI 的 o1 模子,要点在于它的推理才气。o1 通过生成复杂的念念维链来处理复杂任务,比当年的模子发达更出色。

还商量了 o1 的瞎想和纯熟细节,尽头是它怎样通过优化数据处理和算法来提高推理遵守。同期指出,比拟单纯增多模子鸿沟,晋升推理打算参加对晋升模子性能更有用。

OpenAI o1 孝敬者参与撰写的论文

论文:Training Verifiers to Solve Math Word Problems

作家:Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, John Schulman

团队:OpenAI

黑丝在线

贯穿:https://arxiv.org/abs/2110.14168

抽象:发布于 2021 年 10 月,文中指出天然面前的先进讲话模子在许多任务上发达很强,但它们在贬责复杂的数学题时仍然际遇贫瘠。为了贬责这个问题,作家创建了一个叫 GSM8K 的数据集,其中包含 8500 个不同的小学数学题。

研究发现,即使是大鸿沟的 Transformer 模子在这些题目上也发达欠安。为了晋升发达,作家建议使用一个考证器来搜检模子谜底的准确性。

具体作念法是让模子生成多个谜底,然后遴荐考证器评分最高的谜底。而这种方法显赫提高了模子在 GSM8K 数据集上的发达,比传统的调理方法恶果更好。

论文:Generative Language Modeling for Automated Theorem Proving

作家:Stanislas Polu, Ilya Sutskever

团队:OpenAI

贯穿:https://arxiv.org/abs/2009.03393

抽象:发布于 2020 年 9 月,探讨了基于 Transformer 的讲话模子如安在自动定融会释中阐扬作用。

研究的中枢问题是,自动定融会释器在生成原创数学术语方面比不上东说念主类,而这可能通过讲话模子的生成才气得到贬责。

作家先容了一种叫作念 GPT-f 的自动解释器具,用于 Metamath 格式化讲话,并分析了它的恶果。GPT-f 奏效发现了一些新短解释,这些解释被 Metamath 主要库接纳,这是深度学习系统初次为格式数学社区提供并被采用的解释。

论文:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

作家:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

团队:Google Research, Brain Team(谷歌大脑 )

贯穿:https://arxiv.org/pdf/2201.11903

抽象:发布于 2022 年 1 月,著述商量了怎样通过生成一系列中间推理设施(念念维链)来大幅晋升大型讲话模子的复杂推理才气。

作家提倡了一种叫作念"念念维链辅导"的方法,具体作念法是在辅导中给出一些念念维链的示例,匡助模子进行更深刻的推理。最终履行收尾泄露,它在三个大型讲话模子上都显赫提高了它们在算术、知识和象征推理任务中的发达。

论文:Let ’ s Verify Step by Step

作家:Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe

团队:OpenAI

贯穿:https://arxiv.org/abs/2305.20050

抽象:发布于 2023 年 5 月,著述商量了大型讲话模子在复杂多步推理任务中的发达。

作家比较了两种纯熟方法:一种只暖和最终收尾,另一种暖和每一步推理。收尾泄露,暖和每一步推理的方法更有用,能在 MATH 数据集上提高到 78% 的奏遵守。

文中还强调了主动学习在晋升纯熟恶果中的重要性,并发布了一个包含 80 万个设施级反映的 PRM800K 数据集,用于纯熟最好模子。

论文:LLM Critics Help Catch LLM Bugs

作家:Nat McAleese, Rai Michael Pokorny, Juan Felipe Ceron Uribe, Evgenia Nitishinskaya, Maja Trebacz, Jan Leike

团队:OpenAI

贯穿:https://arxiv.org/abs/2407.00215

抽象:发布于 2024 年 6 月,文中先容了用"月旦者"(CriticGPT)模子来晋升机器学习模子输出的评估。

这些月旦者模子能更有用地发当代码中的失误,以至能找到东说念主类可能忽略的问题。尽管这些模子只怕会出错,但与东说念主类联接使用不错减少误导,同期提高失误检测的遵守。

论文:Self-critiquing models for assisting human evaluators

作家:William Saunders, Catherine Yeh, Jeff Wu, Steven Bills, Long Ouyang, Jonathan Ward, Jan Leike

团队:OpenAI

贯穿:https://arxiv.org/pdf/2206.05802

抽象:发布于 2022 年 6 月,文中先容了一种方法,通过微调大型讲话模子,让它们生成月旦性讨论,从而匡助找出摘录中的问题。

研究发现,这些讨论不错有用识别摘录中的失误,包括专诚误导的信息。大模子在生成有用讨论和自我编削方面发达更好。

同期论文还提倡了一个框架来评估模子的月旦、生成和分别才气,并指出即使是大型模子也可能有遗漏的知识。研究展示了怎样用 AI 扶助东说念主类编削机器学习系统,并公开了干通盘据和样本。

论文:Scalable Online Planning via Reinforcement Learning Fine-Tuning

作家:Arnaud Fickinger, Hengyuan Hu, Brandon Amos, Stuart Russell, Noam Brown

团队:Facebook AI

贯穿:https://arxiv.org/pdf/2109.15316

抽象:著述先容了一种新方法来编削图神经汇集(GNN)的纯熟,尽头是针对"图卷积"操作中的遵守问题。

作家提倡了一种名为" FastGCN "的算法,旨在提高图神经汇集的打算速率和缩放才气。通过在纯熟经由中进行类似和优化,这种方法或者处理更大鸿沟的图数据,从而在图数据分析任务中获取更好的性能。

除此以外,作家还按照时刻规则梳理了一些可能与 o1 干系的其他干系论文:

2024 年发布:

2023 年发布:

2022 年发布:

2021 年发布:

2017 年发布:

对于作家

Awesome-LLM-Strawberry的作家是 ID 叫作念hijkzzz的中国小哥。

当今在英伟达任深度学习工程师。

他是OpenRLHF 的第一作家,在英伟达时代配置 TensorRT-LLM 的新模子和算法,还参与了 NeMo 的模子纯熟。

参考贯穿:

[ 1 ] https://github.com/hijkzzz/Awesome-LLM-Strawberry

[ 2 ] https://github.com/hijkzzz?tab=overview&from=2024-09-01&to=2024-09-18

[ 3 ] https://x.com/IntuitMachine/status/1835476301291139395

[ 4 ] https://x.com/burny_tech/status/1836112182804910224

—  完  —

量子位年度 AI 主题谋划正在征聚合!

宽贷投稿专题  一千零一个 AI 应用,365 行 AI 落地有讨论

或与我们共享你在寻找的 AI 家具,或发现的AI 新动向

点这里� � 暖和我,牢记标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日再会 ~  



Powered by 高中自慰 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024