【AI学习阶段性总结(一)】萍聚社区-德国热线-德国实用信息网人工智能

我爱免费 发表于 2025-10-5 22:50

AI学习阶段性总结(一)

作者：微信文章
很久没有写，希望之后能保持至少周更吧，之前忙公司业务，来不及写，最近在疯狂学习中，这是一个保持周更的好契机，接下来会很认真的去做总结，最近学的东西稍微有点陌生，学习起来压力不小。最近2周，在疯狂学习AI相关内容，相信现在每个人对AI都有不少接触，之前我也没有很系统的学习过，只是使用了一些市面上的工具辅助业务，比如AI音频生成，数字人口播视频的生成，用豆包做图片，用Deepseek写脚本或者洗稿，之前觉得自己跟AI很近，近期了解完，天塌了，兄弟们，感觉自己离AI超级遥远，这让我有了非常强的焦虑感，逼着自己开始好好学习，如果你也是停留在跟AI聊天，用AI做点图片视频，希望看完这篇文章，也能有个大致的概念。当然这篇文章主要是写给我自己看的，做总结，并且在学习内容的基础上，举一反三，或者说依葫芦画瓢，重新去梳理一遍学习内容，所以文章的阅读体验可能不会很好。一、学习动机或目的1.用AI给公司现有业务做增效2.通过公司业务的工具开发，把工具卖给同行或者用户我的动机很简单，都是跟赚钱相关，哈哈~二、学习内容来源主要学习这几类课程：1.Python语言的学习这是让我很崩溃的部分，本身上学就不爱学习，C和Java没学好，这么多年不用也不看，现在我是个纯萌新。但如果你想真正深入了解AI，建议需要学习Python的基础内容，最终目标就是能看懂代码，不用写，但得看的懂大部分代码。2.大模型应用专家训练营这个课是某音刷到的，知乎官方课，讲的比较实在，现在AI部分主要的学习内容来自于这里，清华博士授课，听起来不费力，核心在于课后的自主学习。当然这个课价格不便宜吧，5k，我也犹豫了很久，最后40多在某宝买的在线课程，最大的问题是没有老师指导，没有同学交流，不过无所谓啦，先学，因为这个课相对比较专业，主要是面向普通程序员想转型AI工程师的课程，我想学这种课，主要是性格问题，对底层逻辑比较较真，如果直接去学什么n8n、coze工作流，学工具使用，我会比较痛苦，感觉中间的阻力会很多。3.生财有术的AI课也是5k，这是真金白银花出去了，报了生财有术刘小排的AI工具出海，我也没什么思路吧，课程也还没开始。报课动机有几个吧1.看看刘小排怎么带纯小白去做AI工具，这就相当于，我学了上面那个课，编程了程序员，在生财这个课里面，看看产品经理在做什么。2.站在一线，我认为任何一个行业，想要成为一线玩家，首先你必须得在一个活跃的社群，或者身边有一群一线玩家，其实这个是重点了，不仅仅是学习，而且是一手消息资源。当然，我觉得刘小排的课程，不会比上面知乎的官方课专业，面向对象不同，讲的内容也不同。我现在是超级想快速融入到AI的一线中去，我做过很多项目，我深知在门外看和在场内干的区别会有多么的大，所以哪怕我完全没有任何的IDEA去做一个工具出海，我也要进！三、学习内容复盘OK，正式进入学习内容复盘，我先想想到底学到了什么。我决定了，写的过程中，结合AI来完成这次的复盘，首先是一个大纲，把学习的大致内容展示出来。目前上完了3节课（Python占了不少学习时间）1、AI大模型基本原理及API应用
2、DeepSeek使用与prompt工程

3、Cursor编程-从入门到精通

3.1 学习内容以及感想（框架）

我们从结果导向，如果要完成我的业务目标，也就是AI赋能业务场景，那需要用的东西有哪些呢？

3.1.1 Agent工作流

要实现业务的自动化、半自动化，肯定是要结合工作流来搭建的，但我感觉是全自动不太现实。

从脚本生成→音频生成→数字人视频生成→自动化剪辑→自动发布

脚本生成：需要用到文案能力比较强的模型，首选Gemini和Claude

音频生成：这个简单，核心是成品脚本到音频的自动化，这里需要用到程序控制，AI编程就用上了

数字人视频、自动化剪辑和发布，这些更多的都是通过程序控制，尤其剪映的API对接，剪映自动化剪辑的难度偏大，更多的是半自动化，也就是初版先自己搞定，然后自动化生成剩余部分，每个素材脚本是非标准化的，所以全自动的难度很大，除非是介入大模型的训练。

3.1.2 大模型的运用

要了解目前市面上的主流大模型有哪些，类型（通用还是推理），价格等

3.1.3 工具的运用

上面所有工作流的节点，基本上都用了各类大模型的成品工具，无论是脚本生成、音频生成、视频视频等等，这里需要优化或者替代一些现有的成品工具，比如视频生成工具，可以考虑找一些可以本地部署的开源工具，然后对接相应的大模型API，核心是解决生成速度，稳定性等问题。

3.1.4 程序运用

比如说生成脚本可能会用到POE的Gemini 2.5 Pro，脚本生成完自动化能生成音频，就需要通过程序对接，把生成的脚本内容拿过来，去TTS这类音频工具中去进行音频的驱动，当然TTS后期肯定也需要本地化部署，定制和优化，预设好音色，自动生成。

这里也需要用到工具，比如Cursor、Lingma、Trae这类IDE工具（大白话就是AI编程），可能需要介入后台系统、插件等。

这也是AI工具出海的核心了，你的工具要TO C，那前后端的代码就得有，自己不会写就AI写，AI写的过程中，如果自己能看懂在写啥，包括运行过程中出了什么问题，能看懂一些，AI辅助解决，效率很高很多。

如果你完全不懂Python，我觉得效率会低不少。

再强调一下Python的重要性，现在有些省份已经把Python纳入高考范畴，后浪怎么把前浪彻底拍在沙滩上，就是有些东西，我们已经完全不懂了，大模型的底层语言就是Python，咬着牙也得学完！

推荐：B站《零基础入门学习Python》小甲鱼

3.2 具体课程内容

3.2.1 课程内容

1.AI大模型的前世今生，发展历程

2.大模型的分类，分析式、生成式（LLM），多模态（图片、视频、识别）

3.训练方法，API对接

4.Token的定义，常见的特殊Token，温度、Top P是什么

5.Deepseek介绍，不同版本V3、R1等，什么是蒸馏，不同尺寸的模型，Deepseek的创新点MoE、混合精度等，本地化部署，Promote工程

6.Cursor、Lingma等IDE的运用，

3.2.2 我做了什么

1.完成了大模型的API对接，接入的是Qwen 3，在代码中与大模型成功对话，并且生成了一个前端可视化对话页面

2.通过ollama完成了Deepseek的本地化部署，部署了一个7B的模型

3.通过Cursor和Trae完成了一个可视化大屏

这些都是比较基础的运用，核心是如何把学到的知识彻底消化，运用到业务中，或者工作中，哪怕是简单的提效小工具，也是非常棒的。

比如我做了一个文本纠错工具，主要针对我们生产脚本之后，快速检索出文本中的错误。

而且根据我们转音频的需求，定制了多音字强转功能，什么意思呢？

比如“重建”这个字，本身是没错的，但是如果用TTS这类音频工具去生成音频的时候，音频工具会把“重建”读成zhong jian，这就很蛋疼了，所以我做了一个功能叫多音字强转，检测到多音字的时候，会结合上下文，判断这个字是读哪个音，然后把“重建”这个词改成“虫建”输出，这样，TTS音频生成工具就不会读错了。
四、写在最后
好好学习，天天向上，我不知道自己的学习路径是否有误，先学了再说吧，唯一的目的就是快速拥抱AI，从使用者变成创造者，希望你也一样。

有志同道合的朋友，也可以加我一起学习沟通。

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI学习阶段性总结(一)