我爱免费 发表于 2025-10-5 22:50

AI学习阶段性总结(一)

作者:微信文章
很久没有写,希望之后能保持至少周更吧,之前忙公司业务,来不及写,最近在疯狂学习中,这是一个保持周更的好契机,接下来会很认真的去做总结,最近学的东西稍微有点陌生,学习起来压力不小。最近2周,在疯狂学习AI相关内容,相信现在每个人对AI都有不少接触,之前我也没有很系统的学习过,只是使用了一些市面上的工具辅助业务,比如AI音频生成,数字人口播视频的生成,用豆包做图片,用Deepseek写脚本或者洗稿,之前觉得自己跟AI很近,近期了解完,天塌了,兄弟们,感觉自己离AI超级遥远,这让我有了非常强的焦虑感,逼着自己开始好好学习,如果你也是停留在跟AI聊天,用AI做点图片视频,希望看完这篇文章,也能有个大致的概念。当然这篇文章主要是写给我自己看的,做总结,并且在学习内容的基础上,举一反三,或者说依葫芦画瓢,重新去梳理一遍学习内容,所以文章的阅读体验可能不会很好。一、学习动机或目的1.用AI给公司现有业务做增效2.通过公司业务的工具开发,把工具卖给同行或者用户我的动机很简单,都是跟赚钱相关,哈哈~二、学习内容来源主要学习这几类课程:1.Python语言的学习这是让我很崩溃的部分,本身上学就不爱学习,C和Java没学好,这么多年不用也不看,现在我是个纯萌新。但如果你想真正深入了解AI,建议需要学习Python的基础内容,最终目标就是能看懂代码,不用写,但得看的懂大部分代码。2.大模型应用专家训练营这个课是某音刷到的,知乎官方课,讲的比较实在,现在AI部分主要的学习内容来自于这里,清华博士授课,听起来不费力,核心在于课后的自主学习。当然这个课价格不便宜吧,5k,我也犹豫了很久,最后40多在某宝买的在线课程,最大的问题是没有老师指导,没有同学交流,不过无所谓啦,先学,因为这个课相对比较专业,主要是面向普通程序员想转型AI工程师的课程,我想学这种课,主要是性格问题,对底层逻辑比较较真,如果直接去学什么n8n、coze工作流,学工具使用,我会比较痛苦,感觉中间的阻力会很多。3.生财有术的AI课也是5k,这是真金白银花出去了,报了生财有术刘小排的AI工具出海,我也没什么思路吧,课程也还没开始。报课动机有几个吧1.看看刘小排怎么带纯小白去做AI工具,这就相当于,我学了上面那个课,编程了程序员,在生财这个课里面,看看产品经理在做什么。2.站在一线,我认为任何一个行业,想要成为一线玩家,首先你必须得在一个活跃的社群,或者身边有一群一线玩家,其实这个是重点了,不仅仅是学习,而且是一手消息资源。当然,我觉得刘小排的课程,不会比上面知乎的官方课专业,面向对象不同,讲的内容也不同。我现在是超级想快速融入到AI的一线中去,我做过很多项目,我深知在门外看和在场内干的区别会有多么的大,所以哪怕我完全没有任何的IDEA去做一个工具出海,我也要进!三、学习内容复盘OK,正式进入学习内容复盘,我先想想到底学到了什么。我决定了,写的过程中,结合AI来完成这次的复盘,首先是一个大纲,把学习的大致内容展示出来。目前上完了3节课(Python占了不少学习时间)1、AI大模型基本原理及API应用
2、DeepSeek使用与prompt工程

3、Cursor编程-从入门到精通

3.1 学习内容以及感想(框架)

我们从结果导向,如果要完成我的业务目标,也就是AI赋能业务场景,那需要用的东西有哪些呢?



3.1.1 Agent工作流

要实现业务的自动化、半自动化,肯定是要结合工作流来搭建的,但我感觉是全自动不太现实。

从脚本生成→音频生成→数字人视频生成→自动化剪辑→自动发布

脚本生成:需要用到文案能力比较强的模型,首选Gemini和Claude

音频生成:这个简单,核心是成品脚本到音频的自动化,这里需要用到程序控制,AI编程就用上了

数字人视频、自动化剪辑和发布,这些更多的都是通过程序控制,尤其剪映的API对接,剪映自动化剪辑的难度偏大,更多的是半自动化,也就是初版先自己搞定,然后自动化生成剩余部分,每个素材脚本是非标准化的,所以全自动的难度很大,除非是介入大模型的训练。

3.1.2 大模型的运用

要了解目前市面上的主流大模型有哪些,类型(通用还是推理),价格等

3.1.3 工具的运用

上面所有工作流的节点,基本上都用了各类大模型的成品工具,无论是脚本生成、音频生成、视频视频等等,这里需要优化或者替代一些现有的成品工具,比如视频生成工具,可以考虑找一些可以本地部署的开源工具,然后对接相应的大模型API,核心是解决生成速度,稳定性等问题。

3.1.4 程序运用

比如说生成脚本可能会用到POE的Gemini 2.5 Pro,脚本生成完自动化能生成音频,就需要通过程序对接,把生成的脚本内容拿过来,去TTS这类音频工具中去进行音频的驱动,当然TTS后期肯定也需要本地化部署,定制和优化,预设好音色,自动生成。

这里也需要用到工具,比如Cursor、Lingma、Trae这类IDE工具(大白话就是AI编程),可能需要介入后台系统、插件等。

这也是AI工具出海的核心了,你的工具要TO C,那前后端的代码就得有,自己不会写就AI写,AI写的过程中,如果自己能看懂在写啥,包括运行过程中出了什么问题,能看懂一些,AI辅助解决,效率很高很多。

如果你完全不懂Python,我觉得效率会低不少。

再强调一下Python的重要性,现在有些省份已经把Python纳入高考范畴,后浪怎么把前浪彻底拍在沙滩上,就是有些东西,我们已经完全不懂了,大模型的底层语言就是Python,咬着牙也得学完!

推荐:B站《零基础入门学习Python》 小甲鱼

3.2 具体课程内容

3.2.1 课程内容

1.AI大模型的前世今生,发展历程

2.大模型的分类,分析式、生成式(LLM),多模态(图片、视频、识别)

3.训练方法,API对接

4.Token的定义,常见的特殊Token,温度、Top P是什么

5.Deepseek介绍,不同版本V3、R1等,什么是蒸馏,不同尺寸的模型,Deepseek的创新点MoE、混合精度等,本地化部署,Promote工程

6.Cursor、Lingma等IDE的运用,

3.2.2 我做了什么

1.完成了大模型的API对接,接入的是Qwen 3,在代码中与大模型成功对话,并且生成了一个前端可视化对话页面



2.通过ollama完成了Deepseek的本地化部署,部署了一个7B的模型



3.通过Cursor和Trae完成了一个可视化大屏











这些都是比较基础的运用,核心是如何把学到的知识彻底消化,运用到业务中,或者工作中,哪怕是简单的提效小工具,也是非常棒的。



比如我做了一个文本纠错工具,主要针对我们生产脚本之后,快速检索出文本中的错误。

而且根据我们转音频的需求,定制了多音字强转功能,什么意思呢?

比如“重建”这个字,本身是没错的,但是如果用TTS这类音频工具去生成音频的时候,音频工具会把“重建”读成zhong jian,这就很蛋疼了,所以我做了一个功能叫多音字强转,检测到多音字的时候,会结合上下文,判断这个字是读哪个音,然后把“重建”这个词改成“虫建”输出,这样,TTS音频生成工具就不会读错了。
四、写在最后
好好学习,天天向上,我不知道自己的学习路径是否有误,先学了再说吧,唯一的目的就是快速拥抱AI,从使用者变成创造者,希望你也一样。

有志同道合的朋友,也可以加我一起学习沟通。
页: [1]
查看完整版本: AI学习阶段性总结(一)