AI Voice Agent的最新产研动态,以AI 语音面试官为例
作者:微信文章打更人
原作者:奥利维亚·摩尔
翻译:deepseek-r1 & 沉浸式翻译
排版:绛烨
语音是 AI 应用公司最强大的突破口之一。作为人类最高频(且信息密度最高)的沟通形式,它因 AI 技术首次具备了"可编程"特性。
对企业而言,人工智能直接用技术取代了人力。它更廉价、更迅捷、更可靠——表现往往优于人类。语音代理还能让企业实现 7×24 小时客户服务,随时解答疑问、安排预约或完成交易。客户与企业的服务时段不再需要严格同步(试过在太平洋时间下午 3 点后致电东海岸银行吗?);借助语音代理,所有企业都能实现永不离线。
对于消费者而言,我们相信语音将成为人们与人工智能交互的首要(甚至可能是主要)方式。这种交互可能以全天候智能助手或教练的形态存在,也可能通过普及语言学习等曾经遥不可及的服务来实现平等化。
我们目前正从人工智能语音的基础设施层向应用层过渡。随着模型的不断改进,语音将成为一个突破口,而非最终产品。我们非常看好那些以语音为突破口、旨在开启更广阔平台的初创公司。
a16z在在 AI × 语音领域的一些成果<左右滑动>:
左右滑动,查看更多
一、AI 语音的新动向
2024 年是 AI 语音具有重大意义的一年。
模型开发方面的进展简化了基础设施技术栈,从而打造出延迟更低、性能更优的语音agent。这一改进主要得益于过去六个月中推出的新型对话模型。
这些对话模型的价格也日益亲民。2024 年 12 月,OpenAI 将 GPT-4o 实时 API 的输入成本降低了 60%(至每百万 token 40 美元),输出成本更是锐减 87.5%(至每百万 token 2.5 美元)。同时,GPT-4o mini 版本也正式上线实时服务。
二、AI agent现阶段是什么水平
在当前AI代理领域,模型质量已经显著提升,对话质量(包括延迟、可中断性、情感等)已基本解决,现在语音代理在某些情况下已经达到或超过了业务流程外包(BPO)/呼叫中心的水平。
市场进入(GTM)方面,代理产品能够迅速扩展,因为它们直接用技术替代劳动力,适用于中小企业和大型企业。然而,进入市场的门槛通常较低,更传统的企业可能在采用上面临较大障碍。成功依赖于市场进入的速度/执行以及产品的第二阶段发展。
在货币化方面,许多语音产品最初是按分钟计费,反映了模型成本。但随着模型变得更便宜,这种模式越来越受到压力,提供商可以相互压价。未来的定价策略可能会结合强大的平台费用和基于使用的组件。
竞争方面,语音代理与开发者导向的平台、水平平台和垂直市场解决方案竞争。预计这个市场将继续升温。
语音助手市场在 2024 年下半年迎来爆发式增长。据 Cartesia 统计,最新一期 YC 创业营中,专注语音技术的公司占比达 22%。
语音代理也正作为一项功能被添加到更多横向或多模态产品中。
2024 年,我们看到对话式语音技术栈多个层面的企业纷纷获得融资与市场关注,其中包括:
典范企业:如 ElevenLabs 和 Cartesia
横向平台:如 Vapi 和 Bland
垂直化平台:如 HappyRobot 和 Wayfaster
特别是对于大型企业,我们很少看到客户会直接从全人工接听电话直接转向全 AI 接听模式。创始人反而会找到一个"切入点"——先为客户处理通常占比较小的来电类型,并有望随着时间的推移逐步扩展至处理更多通话类型和工作流程。
我们观察到的切入点包括:
三、垂直领域:核心市场
语音代理最自然的早期应用场景通常对应现有呼叫中心/业务流程外包(BPO)支出较高的领域。
若通话由在岸员工作为常规工作处理:
(1)痛点/收益往往不够显著——除非有大量员工专职接打电话;
(2)量化成果/节省的成本并"证明其合理性"存在困难。
这些主要垂直领域(金融服务、B2C、B2B、政府及医疗保健)中的每一个都可能拥有自身的核心供应商,类似于它们各自拥有记录系统的方式。
我们预计在以下领域将出现显著的创业者动向(如果你正在这些领域进行创业,欢迎联系我们!):
金融服务—债务催收等
保险——包括客户服务和后台部门
政府
支持服务——包括需要专业知识的更复杂客户服务来电(例如 IT 技术支持)
在“呼叫中心类别”之外,我们发现市场愿意为用于辅导或培训场景的 AI 语音助手付费,这类应用主要面向高薪岗位。在这些行业中,逼真的语音助手本质上可以充当"模拟器",显著提升员工在岗表现,从而替代人力成本(如销售培训师)或效率较低的软件解决方案。
要了解早期创业者的创业方向,YC 旗下的公司是一个重要参考指标。
自 2020 年以来,全球已涌现 90 家语音智能体公司。这一增长态势正随着新批次的加入持续加速——即将完整公布的 W25 批次中就有 10 家同类企业。在 2023 年前的批次中,多数语音智能体公司均为过去一年内转型入局该领域的企业。
YC 创始人开发的语音代理主要集中在 B2B(约 69%)和医疗保健(约 18%)应用场景,其次是消费者领域(约 13%)。
在 B2B 领域,最常见的子行业为:金融科技(16.9%)和运营(主要为客户支持,占比 12.4%)。医疗健康领域的语音代理则聚焦于前台(面向患者)或后台(面向药房、保险等)场景,重点覆盖普通人类医学(11.2%)、牙科(3.4%)、兽医(2.2%)及物理治疗(1.1%)等细分领域。
四、语音代理市场图谱语音代理B2B(Business to Business)市场中,包含了不同行业如家庭服务、餐饮、招聘、金融、物流、医疗保健、房地产、保险、研究、酒店、法律和政府等中语音代理的应用。
语音代理B2C市场中,分为几个类别,包括成人教育科技(Edtech - adults)、儿童教育科技(Edtech - kids)、一般伴侣(General companion)、治疗(Therapy)、助理(Assistant)、老年伴侣(Companion - elderly)、儿童伴侣(Companion - kids)、生产力(Productivity)以及克隆(Clones)等。
a16z寻找的语音代理公司应具备在特定行业中通过电话提供高效、低成本服务的能力,同时确保高成功率和易于集成,以实现显著的成本节约和业务增长。
五、案例研究:AI 语音面试官
鉴于其复杂性(需与人类完成完整面试)和敏感性(需维护良好的候选人体验),招聘面试看似并非语音助手的明显早期应用场景。但我们注意到已有数家初创公司在此领域取得了显著初期进展——以下是来自客户的部分洞见:
这一痛点尤其突出地体现在人员配置领域(43 家公共合作机构,年营收达 6500 亿美元)——涉及大量中低技能岗位(大概率不会是早期初创企业中的 10 倍效工程师)。人工智能面试可轻松替代初步筛选电话,甚至覆盖更多招聘环节。原因在于:
求职者更愿意“过五关斩六将”,其中可能包括参加 AI 面试客户根据推荐的候选人数量或最终雇主聘用的数量获得报酬——数量越多越好,从而能够推荐更多或更优质的候选人
许多人工智能面试产品的表现已与人类招聘人员相当甚至更优,原因如下:
候选人可尽快或随时安排面试
评估保持一致,如果标准发生变化,客户可以重新运行过去的访谈
双方在语言或口音方面均无障碍
人工智能通常比普通招聘人员更擅长评估技术类或针对特定职位的回答
问
哪种定价模式更加受青睐?
许多公司最初采用按分钟计费模式,但随着模型成本不断下降——且部分客户已意识到这种降本趋势——该模式正面临越来越大的压力。未来的主流定价模式将如何演变?很可能会采用平台费与使用量计费相结合的模式。在哪些场景下适合收取实施服务费或设置最低使用量门槛?
答
问
企业应该以多快的速度拓展到电话以外的服务?
没有哪个企业或行业完全依赖电话——电子邮件、网络聊天、短信等都是重要渠道。企业应以多快速度将业务从电话扩展到其他沟通方式?是优先掌握端到端的单一工作流程,还是先覆盖所有来电?
答
问
是否有可能替换XMS?
许多语音助手都宣扬其终极愿景是取代所在领域的 xMS(记录系统软件)。这在哪些领域是真正可能/可行的?如果许多企业为处理电话支付的费用已超过其 xMS 成本,这种替代是否还有意义?
答
问
行业团队和技术团队,哪个更加有优势?
我们所见到的早期语音代理大多出自技术实力雄厚的团队之手——他们在被引入某个垂直领域/市场后,便投入精力进行深入学习。
随着技术门槛的降低,市场是否会更偏向于 GTM 策略的竞争,使得技术实力较弱但行业经验更丰富的团队占据优势,这种现象在不同垂直领域会有差异。
答
问
voice agent的适用场景和选择依据
在某些领域,企业可能更倾向于利用横向产品自主构建代理系统,而非采用专为其特定市场或场景打造的解决方案。在哪些行业/规模的企业中,这种做法最为合理?对于跨多个垂直领域运营的企业(可能从与单一供应商合作中获益),垂直产品应如何满足其需求?
答
问
语音助手会提升客户关系吗?
在许多情况下,AI 语音代理在情感维度上已经能够超越人类。它们更专注、更具同理心和耐心,并拥有(理论上)无限的时间资源。在特定领域,这种能力将产生巨大价值——语音代理能帮助企业构建更深层次的客户关系,但这一潜力目前尚未被充分开发。
答
关于更多的Agent&workflow行业应用,可以加我V:xinzhiaigc 进行商业咨询,或者加入agent交流群。
绛烨,AI教育智能体工程师,24和25年AI春晚节目统筹,AI内容创作者,
#公众号:AIGC新知主理人,为海淀区数据要素产业联盟合作单位。
#视频号:AIGC新知 是25年AI春晚和AI音乐春晚联播媒体。
如果觉得不错,欢迎点赞、在看、转发,您的转发和支持是我不懈创作的动力~
如果想第一时间收到推送,可以给我个星标⭐~
谢谢你挤出时间看我的文章推送,一眼万年,不胜感激。
AIGC新知 自媒体矩阵
页:
[1]