AI之“耳”:让AI听懂世界,用Whisper一键生成“会议纪要” | 超越文本③

多客科技 · 发表于 2025-9-24 15:53

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
AI之“耳”：让AI听懂世界，用Whisper一键生成“会议纪要” | 超越文本③

【超越文本 · AI之“耳”】

作者：AI喵智能体

哈喽，各位AI探险家们，欢迎回到我们的《超越文本：AI的多模态魔法世界》系列！我是你们的向导喵喵 🤖。

在【AI之“眼”】中，我们让AI看懂了世界；在【AI之“笔”】中，我们让AI画出了想象。今天，我们将开启全新的感官——听觉！

你每天都在和Siri、小爱同学对话，有没有想过，它们是如何“听懂”我们的话，甚至在嘈杂的地铁里也能精准识别出“播放下一首”的指令？

这背后，就是AI的“耳朵”—— 语音识别（Speech-to-Text, STT）技术在施展魔法。今天，我们不仅要揭秘这项技术的原理，还要亲手用代码，打造一个超实用的“会议纪要”生成器！
一、AI如何“倾听”？

AI“听懂”声音的过程，和我们人类学习语言有些相似，但它的学习资料库要庞大得多。

二、认识王者：OpenAI的Whisper

在众多STT技术中，由OpenAI开源的 Whisper模型，无疑是当前最闪耀的明星之一，被誉为STT领域的“黄金标准”。

它的强大之处在于：

今天，我们就将使用它强大的API，来完成我们的实战项目。
三、【本期实践】用Python和Whisper打造“会议纪要”生成器

想象一下，开完一个小时的会，你只需要把录音文件交给程序，几分钟后，一份完整的文字纪要就自动生成了。是不是很酷？让我们现在就来实现它！
第一步：准备工作

whisper 模型分为base, small, medium, large，大小不同，精度不同，速度不同，占用空间不同

代码结构：

第二步：编写核心代码

创建一个Python文件，比如 transcribe_app.py，然后输入以下代码。喵喵已经为你加上了最详细的注释：
# -----------------------------------------------------
# 喵喵实战室：Whisper API 会议纪要生成器
# -----------------------------------------------------

import whisper
import os

# 设置模型名称
model_name = "base"
# 设置模型文件路径
model_dir = "./models"

def transcribe_audio(audio_path):
"""
将音频文件转换为文字

参数:
      audio_path: 音频文件的路径
返回:
      转换后的文字内容
"""

# 加载模型 (可选择不同大小的模型: tiny, base, small, medium, large)
model = whisper.load_model(model_name, download_root=model_dir)

# 执行转录
result = model.transcribe(audio_path)

# 返回转录文本
return result["text"]

def save_text(content, file_name):
# 将结果保存到 results文件夹下
if not os.path.exists("results"):
      os.makedirs("results")

path = f"results/{file_name}"
# 使用 utf-8 编码
with open(path, "w", encoding="utf-8") as f:
      f.write(content)

return path

if __name__ == "__main__":
# 示例使用
# 当前目录下有一个音频文件 "meeting.mp3"
audio_file = "./meeting.mp3"# 替换为你的音频文件路径
text = transcribe_audio(audio_file)
print("转录结果:", text)第三步：运行与检验

在终端里，运行你的脚本： python transcribe_app.py

程序会开始上传并处理你的音频。根据文件大小，等待几十秒到几分钟后，你就会在终端里看到完整的转写文字，

📮 如果你喜欢这篇文章...

请点赞 + 关注「AI喵智能体」 ❤️ 我会继续更新更多

留言“实战”获取完整源码！

系列预告

今天，我们成功为AI装上了灵敏的“耳朵”，并用它解决了一个真实世界的问题——整理会议录音！

我们的AI已经能看懂世界、画出想象、听懂我们说的话。现在，是时候让它 “开口”了。

下周，《超越文本》第四期：AI之“口”，我们将深入文本转语音（TTS）的世界，并亲手用代码，将任何一篇文章，都变成一段由AI朗读的、富有感情的“播客”！敬请期待！

觉得今天的实战让你收获满满吗？别忘了给这个系列一个点赞、在看和分享！

AI喵智能体

通俗讲AI，带你做实战。关注我，和AI一起成长。

#超越文本

📌更多稳定优质账号资源：Lovart AI、Viggle AI Pro、Claude、ChatGPT、Midjourney、Notion AI、GitHub Copilot ……

📥想了解都可以扫码问我👇

一键解锁 chatGPT4.0、GPT-4o、Claude3、Gemini就在开发喵AI已集成国外各种大模型，致力于解决用户魔法上网、答案高要求、内容高标准已内置 100余种命令与角色无论是学习、生活、工作都是你的不二选择还等什么，赶快上车！(公众号发送ai 了解详情)

账号		自动登录	找回密码
密码			注册

萍聚头条

AI之“耳”:让AI听懂世界,用Whisper一键生成“会议纪要” | 超越文本③

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块