AI Weekly v030
作者:微信文章大家端午,儿童,六二节快乐。整整齐齐凑 3 天节日假也是难得。因为假期,顺理成章拖更了一天
2条动态
1. 我理解,就一个大事。DeepSeek R1 有一个“小更新”
我,也不是个自媒体,就不想展开太多。毕竟,对于国运之光的天朝 llm 顶流,一天之内关于新版本的评测已经在所有媒体渠道全面铺开,炸裂,🐂🍺,想必已经把愿意看看这个行业信息的各位轰完一圈了。
前端代码能力是实打实的有明显提升,我都能感觉的到的那种。想看评测的去看藏师傅的吧:https://mp.weixin.qq.com/s/wvavNYTuaAfWlL5HD7T4ag6000 字测评带你看Deepseek R1有多强
2. 不知道放哪儿,只能放在动态归类里的大厂 IDE 近况。
听说,就上礼拜,字节内部禁用了 cursor,他们自己的 trae 也是咔咔更新 ing;然后, 通义灵码的 IDE 发出来了,之前是插件为主;腾讯,也出过个 codebuddy,虽然毫无存在感;美团,做了个 nocode.cn,传播方式非常无厘头,但美团内部又给所有程序员配置了付费 cursor 账号。
几乎可以预见的,顶部大厂一定都会有自己的 AI IDE 了。卷起来卷起来。
3篇内容
1. 晓珺和YouWare创始人小明的3小时访谈
小宇宙链接:https://www.xiaoyuzhoufm.com/episode/68372c9631215eb5063bcdb1
这周唯一听完的播客,非常轻松有趣。安利给所有做产品的同学一起听听。也可以去阅读晚点的文字版访谈阅读(里面有一大半的重合问题但有不同的切入观点)晚点对话小明
他给我印象最深的是:
因为打辩论的习惯,他始终坚持用正反观点去看一件事情。
取舍的能力。准确的说是舍的部分,放弃认为不正确的流量,放弃认为超出自己当前范围的估值。
他对于产品以及创业的很多分享及思考,我都很喜欢。但对于社区的一些讨论,我会有一些 concern,觉得哪里不对。可能,本质上是认为 vibe coding 的作品来做社区,可能还是不够平民化吧。
2. Usage is the Moat使用就是护城河
本篇内容来自遥行的推荐。原文链接点这里:https://www.linkedin.com/pulse/usage-moat-konstantine-buhler-frufc/
非技术文章,内容非常短,但很值得讨论。我读了两遍。
我人肉地高度地总结一句,大概就是: AI 时代,原来的网络效应可能失效了,使用本身也许会成为 AI 类产品的护城河。
quote 1: As companies race toward extremely high revenue targets. Perhaps their moat is really in the feedback loop - in usage. More data can mean a better AI product. This effect is summarized nicely in a 2020 paper out of OpenAI(这篇paper还在读,没读完), written by several people who are now the founders of Anthropic. 中译:随着公司争相实现极高的收入目标,也许它们的护城河实际上在于反馈循环——在于使用。更多的数据可能意味着更好的 AI 产品。这个效应在 2020 年 OpenAI 的一篇论文中得到了很好的总结,论文的作者是几位现在是 Anthropic 创始人的人。
quote2: The moat is in creating a feedback loop from individual customer-specific usage and their specific problem. One could argue that this effect is greater in vertical applications where this data is the most specific and proprietary. 中译:护城河在于从个别客户特定的使用情况及其具体问题中创建反馈循环。可以说,这种效果在垂直应用中更为显著,因为这些数据是最具体和专有的。
我在想,这是不是也解释了为啥今年最火的是 AI coding 这个细分领域。切入一个垂直的专业职能岗位,足够高频,且持续能拿到最直接的反馈,回收了大量的高质量数据。从这点出发,也会在想,youware 的低门槛输入是不是会降低高质量反馈数据的获得效率?
3. Actual LLM agents are coming. They will be trained
本篇还是来自遥行推荐。(我想感慨一句,学习委员手一抖,后进分子忙成狗)原文链接在这:https://vintagedata.org/blog/posts/designing-llm-agents
中心思想不复杂, 但我确实读了蛮久。主要就是聊了下,真正的LLMagent的设计理念与实现路径,强调和当前普遍的workflow 编排系统的区别。然后告诉大家通过 RL的方式让 agents 实现对任务的自主控制才是正经事。
因为最近正好被人问了几遍agent 和workflow 的区别,借此机会,拉了个表总结。
文章里有写 RL+reasoning的 winning recipe,我摘了几句重点
the process to check a reward has been attained is called a verifier,which is currently preferably done on formal outcomes, like math equations or programming sequences.
the preferred method for traiing LLM agents is now GRPO from DeepSeek, especially in combination with text generation from vllm.
For many domains and, more specifically, search, we don't have the data. Because we need actual action sequences: logs, clicks, patterns.
There is a way around: generating the data directly through emulations or "simulation". Classic RL models do not need past examples.
Actual agentic search LLM will not kill RAG. What can realistically happen is automating it to a large extent and bundle all the complexity of vector stores, routing, reranking.
1个产品因为看完听完了关于小明的访谈,假期认真用了下youware 的产品。官网链接在这里:https://www.youware.com/产品定位: vibe coder's community我记得,他在访谈里有说到过这么一句,也是他选择这个产品定位的原因:代码是模型最擅长输出的内容。自然语言有强语境依赖和表达偏好,“我今天很开心”,不同人用不同语气来说,效果完全不一样。但中国人、爱尔兰人、澳大利亚人,写出来的代码是一样的,代码信息熵低、表达标准统一、验证成本低。引入强化学习后,模型的代码能力还在加速提升。
我先说一下 ,自己用后的感觉:
从 vibe coding 的角度 ,因为它没有长成 IDE,所以我下意识认为它的门槛很低,所以第一轮是随意写的 prompt,这时候出来的东西就比较差强人意,属于能看但不好看的状态。然后,会开始在对话框里开始对模型的循循善诱,多轮修改。虽然后面改改的效果确实也很不错。但可能会给我一个感觉是:降门槛了,但貌似降得还差一点点点,属于随便抬腿容易磕一下的程度。
community 还真的挺有意思的。有游戏,有工具,有网页,有 PPT,有 dashboard,有个人简历,生日贺卡,哦,还有表白墙。 看完社区投稿的第一感觉,很像小红书今年砸资源在做的个人开发者内容, 但小红书里是无法体验产品的。但,社区里的高质量用户反馈不够多,原因是现在投稿的人大部分还是处于“我想做个啥”的以自我为中心的状态,这个状态的东西,大部分没法给别人带来更多的价值。而且,也没法链接更多的消费型用户。这么说来,我还是吃不下它关于社区的这个愿景吧。
来个段子
我在想。。。我把这个放在段子的位置。应该不会被喊去喝茶吧。
令人惊赞!
页:
[1]