777me 暖和o1必备GitHub仓库，上线3天狂揽1.5k星！英伟达工程师出品，容或握续更新

你的位置：高中自慰 > 来吧综艺网 > 777me 暖和o1必备GitHub仓库，上线3天狂揽1.5k星！英伟达工程师出品，容或握续更新

来吧综艺网

777me 暖和o1必备GitHub仓库，上线3天狂揽1.5k星！英伟达工程师出品，容或握续更新

发布日期：2024-09-19 17:46 点击次数：114

777me 暖和o1必备GitHub仓库，上线3天狂揽1.5k星！英伟达工程师出品，容或握续更新

暖和 o1 必备的 GitHub 库777me，它来了！

上线3 天狂揽1.5k 星，一跃登上 GitHub 趋势榜！

这个库专注于汇集与 o1 干系的推理技能论文、博客和面貌等资源，供环球研究商量，并在握续更新中。

网友们对它予以高度评价：

科技大 V 说它是"拆解草莓的逆向工程"。

也有网友径直提倡表扬："研究 o1，看它就够了！"

真有这样牛？我们一王人来望望到底怎样个事儿！

干货满满

在这个名为Awesome-LLM-Strawberry的 GitHub 库中，涵盖了多半对于 o1 的信息。

量子位为环球整理了一下迄今为止发布的干系硬核实质：

对于 o1 的博客

博客：Learning to Reason with LLMs

作家：OpenAI

贯穿：https://openai.com/index/learning-to-reason-with-llms/

抽象：这篇博客先容了 OpenAI o1 的纯熟方法，其中包括链式推理、自我月旦、考证、多设施推理、任务领会和蒙特卡洛树搜索等技能。

博客：OpenAI o1-mini

作家：OpenAI

贯穿：https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

抽象：先容了o1 mini模子在推理资本和遵守方面的编削，在保握高推感性能的同期，显赫裁减了打算和开动资本。

博客：Finding GPT-4 ’ s mistakes with GPT-4

作家：OpenAI

贯穿：https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

抽象：商量了怎样欺诈 GPT-4 模子本人来发现和修正生成的失误。著述中提到的"自我审查方法"通过双重评估提高了失误检测的准确性，从而让模子输出的实质变得愈加可靠。（著述发表时，已有 OpenAI 超等对王人团队成员下野，因此也被称为团队的"遗作"）

博客：Summary of what we have learned during AMA hour with the OpenAI o1 team

作家：Tibor Blaho

贯穿：https://twitter-thread.com/t/1834686946846597281

� �：https://x.com/btibor91/status/1834686946846597281

抽象：这篇博客追念了 OpenAI 团队在 AMA（问答枢纽）等共享的对于 o1 模子的主要实质和特质。

其中包括：模子的推理范式以及鸿沟和性能、输入 token 险阻文和模子才气、CoT（念念维链）推理、API 和使用舍弃、订价、微长入扩张等实质。

博客：OpenAI ’ s Strawberry， LM self-talk， inference scaling laws， and spending more on inference

作家：Nathan Lambert

贯穿：https://www.interconnects.ai/p/openai-strawberry-and-inference-scaling-laws

抽象：著述探讨了 OpenAI 的新活" Strawberry "以及推理扩张定律，强调了推理打算在晋升 AI 才气方面的重要性。而相较于单纯扩大模子鸿沟，作家合计增多推理打算的参加能更有用地提高模子性能。（具有前瞻性的一篇博客，著述发布的时候 o1 还没发布）

博客：Reverse engineering OpenAI ’ s o1

作家：Nathan Lambert

贯穿：https://www.interconnects.ai/p/reverse-engineering-openai-o1

抽象：著述介意讲了 OpenAI 的 o1 模子，要点在于它的推理才气。o1 通过生成复杂的念念维链来处理复杂任务，比当年的模子发达更出色。

还商量了 o1 的瞎想和纯熟细节，尽头是它怎样通过优化数据处理和算法来提高推理遵守。同期指出，比拟单纯增多模子鸿沟，晋升推理打算参加对晋升模子性能更有用。

OpenAI o1 孝敬者参与撰写的论文

论文：Training Verifiers to Solve Math Word Problems

作家：Karl Cobbe， Vineet Kosaraju， Mohammad Bavarian， Mark Chen， Heewoo Jun， Lukasz Kaiser， Matthias Plappert， Jerry Tworek， Jacob Hilton， Reiichiro Nakano， Christopher Hesse， John Schulman

团队：OpenAI

黑丝在线

贯穿：https://arxiv.org/abs/2110.14168

抽象：发布于 2021 年 10 月，文中指出天然面前的先进讲话模子在许多任务上发达很强，但它们在贬责复杂的数学题时仍然际遇贫瘠。为了贬责这个问题，作家创建了一个叫 GSM8K 的数据集，其中包含 8500 个不同的小学数学题。

研究发现，即使是大鸿沟的 Transformer 模子在这些题目上也发达欠安。为了晋升发达，作家建议使用一个考证器来搜检模子谜底的准确性。

具体作念法是让模子生成多个谜底，然后遴荐考证器评分最高的谜底。而这种方法显赫提高了模子在 GSM8K 数据集上的发达，比传统的调理方法恶果更好。

论文：Generative Language Modeling for Automated Theorem Proving

作家：Stanislas Polu， Ilya Sutskever

团队：OpenAI

贯穿：https://arxiv.org/abs/2009.03393

抽象：发布于 2020 年 9 月，探讨了基于 Transformer 的讲话模子如安在自动定融会释中阐扬作用。

研究的中枢问题是，自动定融会释器在生成原创数学术语方面比不上东说念主类，而这可能通过讲话模子的生成才气得到贬责。

作家先容了一种叫作念 GPT-f 的自动解释器具，用于 Metamath 格式化讲话，并分析了它的恶果。GPT-f 奏效发现了一些新短解释，这些解释被 Metamath 主要库接纳，这是深度学习系统初次为格式数学社区提供并被采用的解释。

论文：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

作家：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

团队：Google Research， Brain Team（谷歌大脑 )

贯穿：https://arxiv.org/pdf/2201.11903

抽象：发布于 2022 年 1 月，著述商量了怎样通过生成一系列中间推理设施（念念维链）来大幅晋升大型讲话模子的复杂推理才气。

作家提倡了一种叫作念"念念维链辅导"的方法，具体作念法是在辅导中给出一些念念维链的示例，匡助模子进行更深刻的推理。最终履行收尾泄露，它在三个大型讲话模子上都显赫提高了它们在算术、知识和象征推理任务中的发达。

论文：Let ’ s Verify Step by Step

作家：Hunter Lightman， Vineet Kosaraju， Yura Burda， Harri Edwards， Bowen Baker， Teddy Lee， Jan Leike， John Schulman， Ilya Sutskever， Karl Cobbe

团队：OpenAI

贯穿：https://arxiv.org/abs/2305.20050

抽象：发布于 2023 年 5 月，著述商量了大型讲话模子在复杂多步推理任务中的发达。

作家比较了两种纯熟方法：一种只暖和最终收尾，另一种暖和每一步推理。收尾泄露，暖和每一步推理的方法更有用，能在 MATH 数据集上提高到 78% 的奏遵守。

文中还强调了主动学习在晋升纯熟恶果中的重要性，并发布了一个包含 80 万个设施级反映的 PRM800K 数据集，用于纯熟最好模子。

论文：LLM Critics Help Catch LLM Bugs

作家：Nat McAleese， Rai Michael Pokorny， Juan Felipe Ceron Uribe， Evgenia Nitishinskaya， Maja Trebacz， Jan Leike

团队：OpenAI

贯穿：https://arxiv.org/abs/2407.00215

抽象：发布于 2024 年 6 月，文中先容了用"月旦者"（CriticGPT）模子来晋升机器学习模子输出的评估。

这些月旦者模子能更有用地发当代码中的失误，以至能找到东说念主类可能忽略的问题。尽管这些模子只怕会出错，但与东说念主类联接使用不错减少误导，同期提高失误检测的遵守。

论文：Self-critiquing models for assisting human evaluators

作家：William Saunders， Catherine Yeh， Jeff Wu， Steven Bills， Long Ouyang， Jonathan Ward， Jan Leike

团队：OpenAI

贯穿：https://arxiv.org/pdf/2206.05802

抽象：发布于 2022 年 6 月，文中先容了一种方法，通过微调大型讲话模子，让它们生成月旦性讨论，从而匡助找出摘录中的问题。

研究发现，这些讨论不错有用识别摘录中的失误，包括专诚误导的信息。大模子在生成有用讨论和自我编削方面发达更好。

同期论文还提倡了一个框架来评估模子的月旦、生成和分别才气，并指出即使是大型模子也可能有遗漏的知识。研究展示了怎样用 AI 扶助东说念主类编削机器学习系统，并公开了干通盘据和样本。

论文：Scalable Online Planning via Reinforcement Learning Fine-Tuning

作家：Arnaud Fickinger， Hengyuan Hu， Brandon Amos， Stuart Russell， Noam Brown

团队：Facebook AI

贯穿：https://arxiv.org/pdf/2109.15316

抽象：著述先容了一种新方法来编削图神经汇集（GNN）的纯熟，尽头是针对"图卷积"操作中的遵守问题。

作家提倡了一种名为" FastGCN "的算法，旨在提高图神经汇集的打算速率和缩放才气。通过在纯熟经由中进行类似和优化，这种方法或者处理更大鸿沟的图数据，从而在图数据分析任务中获取更好的性能。

除此以外，作家还按照时刻规则梳理了一些可能与 o1 干系的其他干系论文：

2024 年发布：

2023 年发布：

2022 年发布：

2021 年发布：

2017 年发布：

对于作家

Awesome-LLM-Strawberry的作家是 ID 叫作念hijkzzz的中国小哥。

当今在英伟达任深度学习工程师。

他是OpenRLHF 的第一作家，在英伟达时代配置 TensorRT-LLM 的新模子和算法，还参与了 NeMo 的模子纯熟。

参考贯穿：

[ 1 ] https://github.com/hijkzzz/Awesome-LLM-Strawberry

[ 2 ] https://github.com/hijkzzz?tab=overview&from=2024-09-01&to=2024-09-18

[ 3 ] https://x.com/IntuitMachine/status/1835476301291139395

[ 4 ] https://x.com/burny_tech/status/1836112182804910224

— 完 —

量子位年度 AI 主题谋划正在征聚合！

宽贷投稿专题一千零一个 AI 应用，365 行 AI 落地有讨论

或与我们共享你在寻找的 AI 家具，或发现的AI 新动向

点这里� � 暖和我，牢记标星哦～

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日再会 ~

上一篇：女生自慰奥密“狞恶轴心”: 天下深处的未解之谜, 挑战东谈主类领悟极限下一篇：探花偷拍标晚：客战亚特兰大，厄德高、津琴科、富安健洋缺席临了一练