AI竞速下半场:胜负在于给模型能力“打分”
作者:微信文章久谦资本致力于与最优秀的创业者同行,赋能时代变革者。如果你渴望站在资本与创新的交汇点,亲手助推下一个行业巨头的诞生,欢迎点击下面的招聘链接!久谦资本 | Analyst招聘(上海)
在在AI竞速步入“评估时代”后,决定胜负的不再是算力与数据量,而是如何标准化地定义并验证模型是否能胜任真实任务。
Mercor CEO Brendan Foody 将评估比作模型的 PRD:先定义“什么是好”,才能系统性地迭代“变得更好”。他从低价众包改为以高溢价汇聚全球顶尖专家,为AI模型打造能力评分标准和强化反馈。来自医生、律师、工程师乃至艾美奖编剧的专业判断,正在成为训练下一代AI模型的底层燃料。这一全新范式,正推动 Mercor 以史无前例的速度成长为全球最具爆发力的AI公司之一。
当AI渗透到每一个行业,一场关于“谁来定义模型能力”的大战,才刚刚开始。
【读书笔记】
1. AI 行业已进入“评估时代”,模型性能的核心瓶颈在于“如何衡量成功”,如果模型是产品,那么评估就是产品需求文档(PRD),既定义内部研发目标,也能对外展示能力,被称为“评估就是新营销”。奥林匹亚数学等基准案例表明,一旦目标明确,模型能力可迅速提升
2. 市场需求从众包低技能劳动力转向高技能专业人才,以解决模型知识中的具体缺陷,早期LLM依赖低技能工人生成句子,如今实验室需要律师、医生、资深工程师等专业人士来弥补模型知识缺口。Mercor以高时薪(平均95美元,最高500美元)吸引专家,取代传统30美元/小时的众包模式,并能在24小时内组建团队
3. 专家核心任务是创建评估与奖励框架,专家编写评分标准和验证器,为模型定义“何为优秀”,并推动从RLHF到RLAIF(AI反馈)的方法转型。这些标准可大规模应用于训练,评估与强化学习环境在本质上是一体的,都是“什么是好”的定义
4. 评估需求长期存在,经济或演化为巨大RL环境,只要存在“人类能做而模型不能”的任务,就需要评估和专家参与。未来整个全球经济可能像个巨大的强化学习环境:人们不断制定评分标准和验证规则,为AI提供持续的反馈与奖励信号
5. 个人与企业的成功关键是精通AI并投身高弹性行业,AI不会取代人,精通AI的人会取代“你”,未来最有价值的技能是利用AI放大生产力。软件、产品管理、咨询等需求高度弹性的行业,生产力提升会带来更大需求,而非减少岗位。成功者需拥抱“富足叙事”,主动使用AI创造更多价值
6. Mercor由招聘平台演变为面向AI实验室的高技能专家市场,在16个月内将年化收入从100万美元提升至4亿美元,其做法是以市场需求为导向,优先服务需求最迫切、易推广的客户,前期招聘保持极高标准,验证需求后迅速扩张。公司的长期使命是推动全球高端人才的高效流动,并持续为AI模型提供优质的后训练数据和评估支持
本文编译自2025年9月18日Lenny Rachitsky对Mercor的联合创始人兼CEO Brendan Foody的访谈,原链接:
https://www.lennysnewsletter.com/p/experts-writing-ai-evals-brendan-foody
以下是原文的全文翻译,enjoy!
注:正文中标蓝部分为读书笔记的对应原文
Brendan Foody:Mercor的首席执行官兼联合创始人,也是最年轻的独角兽创始人
Lenny Rachitsky:Lenny’s Newsletter作者与Lenny’s Podcast主持人
【正文】
Lenny Rachitsky:我想从你置顶在Twitter主页的一条推文开始。它写道:“我们现在正与七巨头中的六家、所有排名前五的AI实验室以及大多数AI应用层公司合作。一个共同的趋势是:我们正在进入评估时代。”这之所以引起我的注意,是因为“评估”已成为本播客中最常出现的主题之一。然而,许多人仍然不知道它们是什么、为什么重要,以及这为何如此关键。你能解释一下人们错过了什么,以及这个“评估时代”意味着什么吗?
Brendan Foody:如果模型是产品,那么评估就是产品需求文档。研究人员的工作方式是通过运行数十次实验,在评估集上进行微小的改进。强化学习已经变得如此有效,以至于一旦他们有了评估,就能迅速攀升。看看人们一旦专注于奥林匹亚数学或基准测试后,饱和的速度有多快。在很多方面,将代理应用于整个经济体——实现所有工作流程的自动化——的障碍在于:我们如何衡量成功?我们如何评估它,并为我们希望代理完成的一切编写PRD?这正是Mercor正在帮助实现的。
Lenny Rachitsky:正在收听的人现在可能会想:“我真的应该关注这个评估工作。”关于如何做好这项工作,你有什么建议吗?那些做得好的公司,它们的不同之处在哪里?
Brendan Foody: 对于企业来说,关键是建立系统化的测试来衡量AI在多大程度上自动化了其核心价值链。举例来说,如果是一家建筑事务所为客户制作图表,他们如何衡量这些产出的准确性和质量?每家公司都有自己的价值链,如果是多产品公司,则有几条。思考如何衡量这些流程,是有效将AI应用于整个业务的先决条件。
Lenny Rachitsky:我听你在Sarah的“No Priors”播客上讨论过这个问题。她后来发推文说:“评估就是你的新营销。”这是什么意思?
Brendan Foody:这与我前面说的相呼应:如果模型是产品,那么评估就是PRD,但它们也充当了销售材料。评估向研究人员展示了他们应该构建什么,同时也展示了模型的能力。过去,人们常引用学术评估,例如像GPQA或“人类的最后一次考试”这样的博士级推理测试。但现在的转变是面向人们真正在乎的实用能力:自动化软件平台开发,或自动化投资银行分析。实验室和应用层公司将越来越多地使用评估来展示其模型和产品的真正能力。
Lenny Rachitsky:让我们更进一步,稍微放大一点。你能谈谈你所处市场的更广泛格局吗?如果考虑到你的公司正以史上最快的速度增长,那么这个市场基本上可以分为三类。首先是基础模型公司。然后是像Vibe、Cursor、Lovable和Replay这样的应用层公司。再然后就是像你们这样的数据标注公司。请帮助我们理解这个格局,很多人并不真正了解正在发生什么,或者所有这些公司是如何如此迅速增长的。
Brendan Foody:我来分享一下我们的起源故事,这有助于构建这个格局。我在14岁时认识了我的联合创始人。我们在19岁时一起创办了公司,最初是在2023年1月,我们在全球范围内招聘人员,将他们与我们的朋友进行匹配,并自动化了这些流程。类似于人类如何审查简历、进行面试并决定招聘,我们使用LLM自动化了所有这些。在我们离开大学之前,我们通过自力更生达到了100万美元的年化收入运行率。
随后发生了一些事情,包括与OpenAI会面。我们看到了人类数据市场的巨大转变。它正在从众包低技能和中等技能的工人来为早期LLM版本编写勉强合乎语法的句子,转向寻找和筛选问题。挑战变成了:我们如何找到和评估最优秀的专业人员,经验丰富的软件工程师、投资银行家、医生、律师,他们能够评估和解释人们希望模型具备的能力?从那时起,我们开始与所有顶尖的AI实验室合作。我们在16个月内将年化收入运行率从100万美元增长到4亿美元。这是一段非凡的旅程,令人难以置信地兴奋。
Lenny Rachitsky:这太令人震惊了。我认为人们没有意识到这有多么了不起。我相信这是你第一次公开分享这个数字。16个月内从100万美元到4亿美元的收入。
Brendan Foody:没错。这是历史上最快的攀升速度,这是我们非常自豪的一项成就。
Lenny Rachitsky:那么,显然这里正在发生一些重大的事情。为什么这如此有价值?简单总结一下,你为实验室雇用人员来帮助他们训练模型。而且不仅仅是通用劳动力——你正在帮助他们找到专家,来解决模型知识中非常具体的缺陷。
Brendan Foody:正是如此。这直接关联到你之前关于评估时代的问题,评估是这一切的基础。实验室在改进模型方面的主要瓶颈是找到衡量成功样貌的有效方法。这意味着要为衡量进度的测试创建评估,以及在强化学习环境中的验证器来奖励模型并提升其能力。他们需要在每个领域、针对模型尚不能执行的每项能力,都具备这些。世界上最富有的公司愿意不惜一切代价来提升模型的能力。Mercor正处于这一瓶颈的最前沿。
Lenny Rachitsky:这些人究竟在做什么?你能否举一个例子,说明被寻求的专业人才类型,以及他们的工作内容?
Brendan Foody:实际上,市场的边界受限于人类能做而模型尚不能做的任务。举一个具体的例子:假设你希望一个模型像律师一样修改合同,但它错过了关键点并犯了错误。你可以请一位律师来创建一个评分标准,类似于教授创建评分标准的方式来定义交付成果。该标准规定了模型必须能够做什么,以及如何对其表现进行评分。这为衡量进展提供了基础:模型是否达到了专业人士所期望的能力?它还会产生训练数据来奖励和强化这些能力。
Lenny Rachitsky:所以他们本质上是在编写评估。
Brendan Foody:是的,尽管这有细微差别。每个人都把强化学习环境和评估说成是独立的,但实际上这种区别只是语义上的。两者都是定义“什么是好的”的框架。它们可以作为基准——就像Sarah说的,作为销售材料,展示为什么某个模型更优秀。或者它们可以用于后训练,奖励某些模型行为并增强这些能力。
Lenny Rachitsky:让我们回到律师的例子。律师编写了一个定义优秀修改样貌的评分标准。他们是否也提供实际修改过的合同示例作为其中的一部分?
Brendan Foody:他们可能会。过去,数据领域涉及两种类型的数据。第一是监督微调数据输入-输出对,这是人们传统上认为的微调。第二是RLHF数据,即模型生成示例,然后人类对其进行排名。行业现在正朝着来自AI反馈的强化学习而非人类反馈发展。
在这里,人类定义了成功标准。例如,代码中的单元测试或法律工作中的评分标准,然后这些标准可以大规模地应用于训练模型。这种方法更具可扩展性和数据效率,这也是整个市场正朝着RLAIF发展,以进行评估和能力提升的原因。
Lenny Rachitsky:我邀请过Anthropic的一位联合创始人来播客,他说了完全相同的事情——他们已经转向了AI驱动的强化学习。简单来说,律师定义了修改的正确标准,然后AI进行迭代工作,尝试改进,并根据评分标准进行自我检查,看是否朝着正确的方向发展。
Brendan Foody:完全正确。它正在以助教使用教授评分方案的相同方式应用“好”的评判标准。学生的回答是否符合所需标准?如果是,就给分;如果不是,就扣分。
Lenny Rachitsky:让我们来谈谈更广泛的劳动力市场。这里有两个问题。首先,我们需要做这件事多久?你们增长得令人难以置信地快,但会不会有一个时间点,不再需要人类参与?
Brendan Foody:核心问题是:人类能做而AI不能做的事情还会存在多久?有些人认为我们会在三年内拥有超智能,而人类将完全不参与经济活动。这是其中一种观点。
我们的观点不同。这些模型非常出色,能快速自动化许多任务,但仍有许多它们力所不及之处。它们无法有效地安排会议,无法可靠地起草专业的电子邮件,也无法无缝地使用基本工具。我们需要针对所有这些任务的评估。展望未来,想象一下十年后,当我们希望一个模型在30天内自主创办一家初创公司时,我们也需要为此进行评估。只要存在人类能做而模型不能做的任务,改进模型的旅程就会继续。这代表了未来很大一部分领域。我们的使命是帮助创造未来的工作。这个行业为我们提供了一个令人兴奋的视角,让我们看到一切正在朝着哪个方向发展。
Lenny Rachitsky:你转发过一条推文,我想问一下。它说:“如果仔细想想,我们被安排来到地球,就是为了给AI实验室创造强化学习训练数据。”这对你来说意味着什么?那个人在暗示什么?
Brendan Foody:它反映了我与顶尖实验室的研究人员和高管的对话。经济体极有可能演变成一个巨大的强化学习环境机器——通过评分标准或验证器来构建世界和背景,以指导模型。
这令人难以置信地兴奋。如果我们看看历史上的相似之处,例如工业革命,人们担心大规模失业。但它创造了全新的工作类别:建造机器、管理知识工作、创造新产业。在AI方面,过去三年里,大部分讨论都集中在工作岗位被取代上。但很少有人谈论正在创造的新工作类别。这些对于人们的未来准备和技能提升至关重要。最令人兴奋的前景是塑造人类如何适应经济以及这种角色如何随着时间演变。
Lenny Rachitsky:我经常听到人们尤其是学生,问他们应该学习什么,以及未来哪些技能仍然有价值。你正处于这场变革的中心,亲眼看到哪些工作有需求,以及招聘是如何变化的。非常具体地说,你认为哪些工作和技能将保持其价值?
Brendan Foody:就工作而言,需求高度弹性的类别将尤为重要。当生产力提高十倍时,具有弹性需求的行业将产生十倍甚至一百倍的产出。软件就是一个典型的例子:如果开发人员的生产力提高十倍,我们只会构建多得多的软件。这意味着像产品经理这样的角色将变得更加重要。
就技能而言,关键在于能够利用AI来放大你在任何行业中的生产力。例如,我曾与老师们讨论如何评估学生。当计算器出现时,重点不是禁止它们,而是测试学生使用它们能取得什么成就。这里也一样:不要抵制学生使用AI。相反,挑战他们使用ChatGPT、Codex或Cursor等工具,在一小时内构建一个产品,然后评估结果。潜在的技能不是避免AI,而是学习如何有效地驾驭它。
Lenny Rachitsky:当你谈论弹性时,你指的是跨多个领域的通才,还是其他什么?
Brendan Foody:我说的弹性是指一个行业内的潜在需求。例如,在会计领域,世界只需要有限的数量。可能有一些增长空间,但感觉上我们永远不需要100倍的会计工作。
相比之下,软件开发的需求几乎是无限的。我们可以发布更多的功能,更快地构建,并扩展产品。Marc Andreessen最近发推文说,软件是所有行业中最具弹性的:生产力提高直接推动了需求的增加。这个特征也适用于其他行业。重点应该放在那些生产力提高能带来更大需求而非更少需求的领域。
Lenny Rachitsky:所以你认为学习编程仍然有用,计算机科学仍然是一个有价值的学科。在弹性工作类别方面,工程和产品管理显然符合。那么设计或其他角色呢——你还看到了哪些属于这一范畴?
Brendan Foody:我认为在构建公司的整个价值链中,有许多可变成本,包括很大一部分的运营和咨询。想象一下,如果我们拥有十倍数量的McKinsey顾问——我们还能完成哪些额外的研究和分析?那些会成功的公司和个人是拥抱这种富足叙事的人:问我们如何才能做得更多,而不是抵制变革或试图阻止取代。
Lenny Rachitsky:顺着你的思路,关于你说的第二点,最成功的人:不一定是一种特定的技能,而在于精通AI并用它来让你正在做的事情上变得更好。这让我想起了Elon Musk创办Neuralink的理由。据我理解,他想创建Neuralink是因为当AGI和超智能到来时,人类需要一种跟上速度的方式。他的想法是,最好的机会是将我们的大脑连接到超智能。从某种意义上说,熟练使用AI工具的感觉就是如此——本质上是获得一种超能力。
Brendan Foody:完全正确。培养出弄清楚如何利用AI并有效地整合它的超能力将至关重要。
Lenny Rachitsky:这就连接到了那句经常被引用的话:AI不会取代你;精通AI的人会取代你。
Brendan Foody:我认为这完全准确。我在企业层面也看到了这一点。一些组织犹豫不决,充满恐惧,不愿参与或评估他们的业务,因为这可能会揭示他们价值链中的某些部分正在被自动化。相比之下,其他公司包括一些最复杂的财富500强公司,正在拥抱这一机会。他们的心态是:如果我们能取得十倍甚至一百倍的成就,这意味着什么,以及我们如何拥抱那个未来?我相信这些公司将会成功,因为接下来的十年将带来巨大的变革。
Lenny Rachitsky:让我们更广泛地转向劳动力市场。最初,你的工作不是向AI实验室提供人才或训练模型。它始于帮助人们找到工作和公司招聘人才。然后你发现了一个更大的机会。你对劳动力市场和招聘的未来有着非常有趣的见解。你能谈谈吗?
Brendan Foody:当然。当我们创办公司时,当时我们19岁,我们本能地感觉到劳动力市场效率低下且支离破碎。举例来说,当我们在全球招聘时,一个候选人可能会申请十几份工作,但作为一家位于湾区的公司,我们只会考虑全球范围内可获得候选人的一小部分。这是因为存在一个人工匹配问题:人工审查简历、进行面试并决定招聘谁。通过以软件的成本自动化这种匹配,我们为全球统一的劳动力市场开辟了道路,在这个市场中,每个候选人都可以普遍申请,每家公司都可以在全球范围内招聘,从而实现整个经济体中信息更有效的流动。
我深信这是我们前进的方向。然而,随着时间的推移,我们意识到工作本身的性质正在发生巨大变化。朝着那个十年愿景迈进,也意味着要塑造工作的未来。更具战术性地,我们正在为客户构建关于评估和强化学习环境的非凡数据集。
Lenny Rachitsky:从我所见,招聘本身已经发生了重大变化。我一直在与一位合伙人进行研究。现在申请工作变得容易得多。许多人会申请数百家公司,而AI使得调整简历和求职信变得简单,给人一种个性化申请的印象。但实际上,这只是数百份申请中的一份。在另一端,招聘经理被海量申请淹没,需要AI来筛选它们。因此,即使我们无意达到这一点,我们也被推向了这个方向:双方都面临高申请量,需要智能过滤和选择。这正是你们公司长期以来一直在构建的。
Brendan Foody:正是如此。我们经常被问到,我们认为自己是一个劳动力市场还是一个数据公司。之所以有趣是因为我们意识到AI实验室真正需要的是一个劳动力市场。他们需要极高素质的人才。我们加入了项目管理和软件平台,但从根本上说,他们希望找到跨不同领域的非凡专业人才,这些人能够评估模型能力,并帮助构建未来的工作。
Lenny Rachitsky:回到你与模型的工作,我正在与一位脚踝受伤的朋友交谈。他拍了X光片,上传到ChatGPT并要求进行特定分析。模型给出了诊断。他问我:模型怎么可能知道这些?互联网上存在哪些关于这方面的数据?我解释说,这不仅仅是预训练现有数据;人类实际上正在帮助模型学习,在它缺乏完全理解的领域指导它。
Brendan Foody:完全正确。大多数人没有意识到这些模型工作方式的复杂性。预训练将大量知识编码到模型中,本质上是塑造了它的世界观。后训练和强化学习则改进了模型的推理能力,区分了准确和不准确的知识,并优先考虑在决策中应使用什么。例如,放射科医生通过提供正确的诊断以及相关的奖励或惩罚,为训练后数据集做出了贡献。这些专家的质量直接决定了ChatGPT最终决策和推荐的质量。
Lenny Rachitsky:让我们更深入地探讨一下,这太引人入胜了。澄清一下:你和这些专家所做的工作是后训练的。它不是将原始数据输入训练集。相反,你们采用一个现有模型比如GPT-5,然后识别它缺少什么并添加该知识。
Brendan Foody:正确。这是关于使模型能够关注预训练中正确的标记并加强推理链,从而提升其广义推理能力。
Lenny Rachitsky:从事这项工作的人员规模有多大——数千人、数万人、数十万人?
Brendan Foody:任何时候都有数万人,更广泛地说有数十万人。规模是巨大的,并且正在迅速扩大。过去,众包公司招募了大量的低技能工人,Scale和Surge是先驱。但随着需求转向更高技能的劳动力,行业意识到少数高能力的人可以完成更多的工作。一旦达到质量门槛,规模化就随之而来了。在我们去年年初的快速成功和收入增长之后,许多其他公司也采取了类似策略,认识到市场演变的速度之快。
Lenny Rachitsky:这很有趣。像AlphaSights和GLG这样的公司在AI出现之前就将客户与专家联系起来,本质上是安排一次性通话。事实证明,这种模式对于训练AI也非常有用。但在这种情况下,中间人不再需要了。
Brendan Foody:没错。但核心区别在于AlphaSights通常安排一次性通话,而我们的工作大多涉及为长期项目雇用专家。这也是传统专家网络难以转型的原因之一。留住人才并协调激励机制至关重要。在很多方面,我们的模式类似于Uber或DoorDash这样的传统劳动力市场,只不过我们拥有更高技能的专业人员,他们得到了非常好的待遇。
Lenny Rachitsky:这是一个很好的学习机会,请允许我进一步提问。专家们贡献的内容中,有多少侧重于特定的技术知识,又有多少侧重于个性和软技能?例如,有多少是关于执行考试或解读X光片?
Brendan Foody:这取决于实验室。两者都有很多。过去,软技能可能更突出,但如今许多实验室关注具有经济价值的专业领域,即那些能产生收入的领域。话虽如此,创造力仍然非常重要。例如,我们最近聘请了Harvard Lampoon的成员来帮助模型变得更有趣,我们也请来了艾美奖获奖编剧。我们招聘的创意和专业知识的范围非常广泛。
Lenny Rachitsky:这太了不起了。一个如此引人入胜的故事。我很好奇,这些举措多久能见效?比如,如果你雇佣了一个专家团队,我们应该在几个月内还是几年后看到他们的影响?
Brendan Foody:这取决于情况。有些模型或实验室是迭代地发布改进,每隔几周就悄悄地升级模型,而不是宣布一个新版本。
Lenny Rachitsky:所以这些改进是在没有正式新版本发布的情况下发生的?
Brendan Foody:完全正确。有些喜欢增量更新,有些喜欢更大的发布。无论哪种方式,我们都行动得很快。如果客户提出请求,例如要求艾美奖获奖编剧,我们可以在24小时内提供专家。尤其有趣的是,在我们雇用的任何100人小组中,前10%的人通常推动了模型的大部分改进。这类似于公司的情况,前10%的员工创造了大部分影响力。当我们能够可靠地识别和招募这前10%的人时,我们就能为客户创造巨大的价值,并建立起一个难以匹敌的优势。这直接回到了我们创始的论点:找到非凡的人才,并确保他们提供一流的结果。
Lenny Rachitsky:关于这一点,这是否意味着你们雇用了一个人,比如Jane,她擅长编程,然后她就在Anthropic全职工作,还是这更多是一种兼职项目角色?
Brendan Foody:情况各不相同。通常是兼职,比如在一家节奏较慢的公司工作、每周有20小时空闲时间的专业人士。但根据需求,我们也提供全职、每周40小时的角色。
Lenny Rachitsky:那么这些角色的薪酬是否足够吸引顶尖工程师?
Brendan Foody:绝对。我们的平均时薪是95美元,根据专业知识最高可达每小时500美元。这与传统的众包公司有很大不同,后者通常支付每小时30美元左右。以30美元的价格你通常会雇到本科生。以95至500美元的价格,你吸引的是高盛银行家、McKinsey分析师和高级软件工程师。最终,实验室为他们的模型寻求的技能集属于后一类。
Lenny Rachitsky:我理解你可以分享的内容有限,但Anthropic的Claude因其卓越的编程能力和写作反馈而广受认可。是什么让它表现得如此出色?
Brendan Foody:我不能透露具体的客户工作,但整个领域的趋势是强化学习和仔细定义正确的奖励。建立有效的奖励结构,同时避免奖励作弊,产生了巨大的影响。
Lenny Rachitsky:评估。
Brendan Foody:没错。评估就是一切。我最喜欢的一句客户引言是:“模型的优劣取决于其评估。”事实证明,这句话始终是正确的。
Lenny Rachitsky:Greg Brockman曾发推文说:“评估就是你所需要的一切。”让我们转向Mercor。我相信数据显示它是历史上增长最快的公司。驱动如此快速成功的核心原则是什么?
Brendan Foody:最重要的因素是在快速变化的市场中关注领先指标。我过去常常从产品准备就绪的角度来思考“为什么是现在”,例如,自动化简历审查或面试。但真正的驱动力是识别需求快速转移的新市场,以及富有的客户愿意不惜一切代价来提高模型性能的市场。我们围绕为这些客户提供最佳解决方案进行了优化,这是至关重要的。
另一个原则是客户痴迷。在过去的一年半里,我们没有销售或营销团队。我们将100%的资源投入到构建优秀的产品和体验中。单凭口碑就带来了更多的客户。虽然有些创始人在早期就专注于营销,但我们完全投资于创造六星级的客户体验。这正是我个人投入时间的地方。
Lenny Rachitsky:让我们回顾一下第一点。你最初是如何发现这个机会的——是否有那么一个时刻,你意识到了它的规模?
Brendan Foody:是的,有一些难忘的故事。我们在2023年1月创办了公司。那年8月,我还在上大学的时候,一位客户通过Zoom把我们介绍给了xAI的联合创始人。他们被告知我们拥有非常能干的印度软件工程师,他们在数学和编程方面表现出色。
我们解释说,他们的优势来自于完全专注于技术学科而非人文学科。xAI团队非常喜欢这一点,并在两天内邀请我们去Tesla的办公室,在那里我们见到了几乎整个基础团队。尽管他们当时仍在进行预训练,尚未准备好使用人类数据,但我们离开时确信,市场即将发生巨大变化,我们需要站在前沿。几个月后,一家众包公司使用我们的平台雇用了1000多人。很快,我们收到了大量关于工人未获得报酬的支持工单,这是不可接受的。这揭示了现有公司是如何忽视工人尊严和公平薪酬的。那次经历强化了我们直接与实验室合作、公平支付专家、并剔除低效中间商的机会。我们在去年5月开始这样做,剩下的就都是历史了。
Lenny Rachitsky:而现在你们已经创造了数亿美元的收入。从你的描述来看,你们乐于接受来自市场的拉力信号。当你感受到需求时,你就会加倍努力,创造最好的体验。
Brendan Foody:没错。如果我要给创始人提供建议,我会说:坚持很重要,但有时你必须让市场告诉你应该关注哪里。如果销售极其困难,那么规模化将是不可能的。相反,要寻找那些出乎意料地容易销售的客户,那些需求不容置疑的地方。这关乎平衡你对论点的信念,以及对机会在市场发展中所采取的确切形式的开放性。
Lenny Rachitsky:这是一个很有价值的见解。你描述的时刻与xAI的会面以及在你平台上的1000次招聘,是那些关键点吗?
Brendan Foody:正是如此。第一个发生在我们在种子轮融资之前。我们通过自力更生,在保持盈利和高资本效率的情况下,将公司发展到了100万美元的年化收入运行率。随后,在9月与General Catalyst完成种子轮融资后,第二个时刻证实了巨大的市场需求。我们看到现有公司适应缓慢,而我们的模式正是客户迫切需要的。
Lenny Rachitsky:识别机会并开始执行是一回事,但在规模化时保持成功又是另一回事。你强调公司价值观,它们是如何做出贡献的?
Brendan Foody:我们有三个核心价值观,我可以分享每个价值观的一个简短故事。
第一个价值观是保持“能做”的态度。人们有时会拿这句话和我开玩笑,但我们总是设定极其雄心勃勃的目标,不知何故,公司的发展轨迹与这些目标保持了一致。比如,在我们进行A轮融资前与Benchmark交流时,我们的年化收入运行率为150万美元。我告诉他们我们将在年底达到5000万美元的年化收入运行率,他们认为这不可能。然而,我们在两周内就实现了。从那时起,我们远远超过了这些数字,现在正朝着5亿美元的年化收入运行率迈进,这原本是我们今年的目标。在收入规模、人才体验和其他方面设定雄心勃勃的目标始终至关重要。
第二个价值观是极高标准。这适用于我们招聘的人员以及我们对他们的期望。我们有一个严格的招聘门槛,并引进了拥有非凡经验的人才,他们通常是前创始人。比如,我们最近聘请了Sundeep Jain担任总裁。他曾是世界上最大的劳动力市场Uber的首席产品官和首席技术官,他加入了我们相对较小的公司来帮助我们扩展。
第三个价值观是强度。如果你看看Meta和Google等公司早期的文化,它们在起步时有着非凡的强度,人们不惜一切代价推动模型能力的前沿。我们是以产出为导向,专注于人们取得的成就而不是他们工作的小时数,同时认识到,建立一个传奇企业需要一种强烈的文化。
Lenny Rachitsky:我可以看到这三个价值观能做态度、高标准和强度是如何协同作用的。关于996或699文化有很多讨论,即一周工作六天,从早上9点到晚上9点。许多人认为它是有害的,但我经常听说最成功的AI公司就是以这种方式运作的。节奏太快,机会如此难得,似乎这是必要的。你的看法是什么?
Brendan Foody:澄清一下,我们从未强制规定工作时间。它更多是人们对业务有多投入的副产品。许多人选择在办公室待到很晚,因为他们全身心投入,但如果有人需要提前下班去和孩子吃晚餐,或者周末去旅行,那完全没问题。重要的是所有权和承诺,而不是待在办公桌前的小时数。话虽如此,那些投入最多的人确实经常待到很晚,尽管并非总是如此。
Lenny Rachitsky:当你说“高标准”时,你能举个例子吗?许多人声称他们有高标准,但实际上并非如此。
Brendan Foody:在招聘中,速度和质量之间总是存在权衡。对于我们的前十名员工,我们极其耐心和严谨。许多人都是真正非凡的。例如,我们的第二位美国员工曾是Scale的增长主管,在我们还处于种子轮阶段时就加入了我们。另一个人,Daniel,已经将两个消费应用扩展到超过10万用户。这些拥有如此非凡背景的早期员工,为公司后来的成长定下了基调。
Lenny Rachitsky:你还曾表示“慢招”的建议并不总是正确的。你能解释一下吗?
Brendan Foody:这是一把双刃剑。一方面,我非常庆幸我们的前十个人都是非凡的,因为那个基础带来了巨大的回报。另一方面,公司会达到一个你需要快速招聘的阶段。有些工作需要规模,在这个阶段,速度比质量更重要。虽然我们增长得很快,但我相信如果我们从10人扩大到100人时更积极地招聘,我们可以扩展得更快。
慢招的好处是,我们招聘的每个人都是非凡的,我们希望保持这个高标准。缺点是,我们可能限制了我们的增长速度。一旦需求远远超过产能,加速招聘就变得至关重要,即使这意味着接受一些差异。
Lenny Rachitsky:所以教训是:在前十人时要非常谨慎,但在需求被证实后就要加速?
Brendan Foody:是的,尽管我不会精确地定在十个人。真正的标志是你知道业务正在运行,且需求远远超过你的供应能力时。那时你就要踩下油门,优先考虑速度。在那之前,在寻找最优秀人才方面,耐心和严谨是必不可少的。
Lenny Rachitsky:你过去创办过一些小公司。现在,作为一家超高速增长公司的CEO,你对自己时间的分配有什么最让你感到惊讶的地方?许多有抱负的创始人渴望达到你的位置,但他们通常对CEO的角色有哪些误解?
Brendan Foody:主要的关注领域与我的预期一致:招聘和与客户共度时间。我的工作是深入了解客户的需求,并建立满足他们的团队和流程。当然,也有一些我没有预料到的临时性职责,例如处理与人相关的问题、设定级别和设计薪酬结构。但总的来说,我的时间集中在招聘和客户上,这与我最喜欢做的事情一致。
Lenny Rachitsky:你提到过去创办了几家公司。你能分享其中一两次经历,你从中学到了什么,以及它们如何帮助了你现在的角色?
Brendan Foody:我创办了大约十二家公司,但我分享我最喜欢的两个。我八年级时创办了Donut Dynasty。我注意到Safeway以5美元的价格出售一打甜甜圈,我认为这笔交易非常划算。我开始骑自行车去Safeway,买一打甜甜圈,然后在学校以每个2美元的价格出售,赚取了丰厚的利润。它们很快就卖完了,所以我扩大了规模。我付给我妈妈20美元,让她开她的厢式旅行车送我去Safeway,这样我就可以买十打甜甜圈,带到学校,然后全部卖掉。
学校试图关闭我,因为在校园里卖食物是违反规定的。他们把我叫到校长办公室,告诉我停止,所以我只是把我的摊位搬到了校外50英尺的地方。竞争对手很快出现了,他们以更高的成本出售来自Chuck's Donuts的高端甜甜圈。我通过将价格降到1美元两周来削弱他们,这使他们退出了市场。我还雇用了朋友,用他们可以转售的甜甜圈支付报酬,这进一步降低了我的成本。那次经历教会了我创意很常见,但执行很稀有。阻止更多公司被建立的不是缺乏创意,而是缺乏主动性。创办Donut Dynasty给了我从零开始构建、倾听客户和规模化它的实践。那些教训延续到了我后来的规模更大的创业中。
Lenny Rachitsky:这是一个很棒的故事,与那些负面例子相比,非常积极。
Brendan Foody:我妈妈当时很担心。她问我甜甜圈里是否藏了什么非法的东西。我向她保证它们只是普通的甜甜圈。
Lenny Rachitsky:我也喜欢你付给你妈妈20美元。
Brendan Foody:是的,她坚持说不能只是白给。如果她花时间开车送我,她想要一些报酬。我们甚至为她的头衔讨价还价,她最终决定想要成为全球运营主管,这让我们很开心。
Lenny Rachitsky:你提到你创办了十二家公司?
Brendan Foody:是的,没错。有十二个项目,但我认为就是那些。还有我的AWS公司是我规模化的另一个项目。
Lenny Rachitsky:Mercor这个名字背后的故事是什么?
Brendan Foody:Mercor在拉丁语中是市场的意思,或买卖和交易。我们想建立世界上最大的市场——所有人寻找工作的市场。这就是这个名字背后的灵感。
Lenny Rachitsky:也许最后一个问题,回到我们早些时候的讨论。在我们交谈的过程中,我一直在思考这种从数据作为模型的燃料到现在涉及专家的转变。你认为是否有下一步,或者这只会引导我们走向AGI和超智能?
Brendan Foody:我不认为这是从数据到专家的转变。更确切地说,这是认识到实验室需要与专家密切合作,才能理解他们正在构建的评估,以及如何推动前沿。评估是常青的,只要我们想改进模型,我们就需要专家来创建评估、训练后数据和资源,供模型学习新的能力。训练方法可能会通过RL或其他方式改变,但定义成功的样貌的评估需求将永远存在于每个领域。
Lenny Rachitsky:在此基础上,一个经常出现的问题是关于缩放定律。这不仅仅是模型智能的进展。许多人觉得它正在放缓,我们不会以目前的速度真正实现超智能。你的看法是什么?
Brendan Foody:我同意。一些大型实验室的高管声称我们将在三年内拥有超智能,但我相信现实是一条更长的路。这并不影响当今模型的非凡之处。我认为我们能够在未来10年内自动化大多数知识工作任务。但这种进展不取决于10倍的预训练数据,而取决于精心策划的训练后数据集,这些数据集更具数据效率和深思熟虑。
Lenny Rachitsky:David Sacks发推文说,当前的情况可能是最好的情况。AI没有快速起飞到超智能。有许多竞争者互相制约。模型已经非常有价值,并且变得更有价值,但我们没有处于赢家通吃的超智能情景中。
Brendan Foody:我认为这是真的。关于超智能的恐慌言论可能被夸大了。尽管如此,有些人争辩说,即使有5%到10%的灾难可能性,我们也必须小心,这是合乎逻辑的。但我相信接下来的10年对于硅谷和世界来说将是非凡的,因为这项技术将带来富足,更好的医疗、最佳的法律建议以及以我们从未见过的规模构建产品的能力。
Lenny Rachitsky:教育也感觉正在被改变。
Brendan Foody:没错。即使在10年前,当我父母批评我逃课时,我就有这种感觉。我会说:“YouTube上有更好的讲座为什么不去看那些呢?”随着模型在传达信息方面变得极其出色,甚至比最好的教授还要好,其影响将是深远的。这意味着获得可以帮助人类进步和帮助所有人提升技能的知识。
Lenny Rachitsky:最后一个问题。在我们经常进行的“AI角落”环节中:你个人使用AI来做得更好或帮助生活的一种方式是什么?
Brendan Foody:我经常用它来撰写文档,这是你可能预料到的。我也用它来就问题寻求建议,几乎是作为一个思维伙伴。我发现通过交谈来思考事情会更好,但我不能总是和我的同事或身边的人这样做。
Lenny Rachitsky:所以这主要是ChatGPT语音模式?
Brendan Foody:是的,我喜欢ChatGPT语音模式,尽管仍有改进空间。我对语音的未来非常兴奋。
Lenny Rachitsky:Brendan,你还有什么想和听众分享的吗?
Brendan Foody:基于主动性这一点:我鼓励每个人,尤其是在AI使得构建更容易的情况下,去采取主动性来创造产品、与客户交流并迈出那一步。这通常是创新的最大障碍。
Lenny Rachitsky:是的,太多人只是消费播客或帖子,却不采取行动。如今是构建和实验最容易的时候。
长按 & 扫码
获取更多报告免费产品试用
https://mmbiz.qpic.cn/mmbiz_jpg/Dqn2iadmTic3UVbcrSO5vK83FN371dZYkMUJh1q3sWj1yEpicq2F0LuGCjWCp93ju2jlm5IKMTsWHHCQ0qnbWJ6uA/640?wx_fmt=other&wxfrom=5&wx_lazy=1&wx_co=1&randomid=urv2exct&tp=webp#imgIndex=32
现在微信的推送机制改了,后台很多读者反馈说看不到更新,有时候还需要点到公众号主页才能看到更新的文章,大家可以点击公众号主页右上角“...”设为星标。我们每周三五日下午四点半会准时发文。有感兴趣的问题也都欢迎直接联系我们或者在文末留言,期待和各位的交流。
【更多内容,点击下方关注】* * *关于久谦资本成立于2009年,服务于关注新兴领域的企业与一线投资机构;我们相信科学与技术能够改变专业服务;希望带给市场多一分理性、少一分似是而非;我们认为与众不同的研究与分析,是我们荣誉的唯一来源。
页:
[1]