|
|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
作者:微信文章
作为一名ruster,接下来我会一步步分享使用rust 开发AI相关应用。开发应用之前先基础了解AI 相关知识Large Language Model(大语言模型)的缩写 它是指一种基于大量文本数据训练的、规模巨大的人工智能模型,主要用于理解和生成人类语言。您可以把它想象成一个在信息海洋中经过大量学习的、极其强大的自动文本预测和生成引擎直接向LLM发送一个提示(Prompt),并获取其生成的响应(Completion)。模型仅基于其内部知识(即训练时学习到的数据)来回答问题,不会主动查询外部信息
工作原理:1.用户提问:“法国的首都是哪里?”2.LLM直接从其参数化的知识中回忆答案3.模型回答:“法国的首都是巴黎。”
•优点:简单、快速、成本低•缺点:
•知识截止性:模型的知识仅限于其最后一次训练的时间点。无法知晓之后发生的事件(例如,问它“今年的奥斯卡最佳影片是什么?”可能得不到正确答案)。•可能产生幻觉:当被问及训练数据中不明确或不存在的信息时,模型可能会“编造”一个听起来合理但实际上是错误的答案。•无法访问私有数据:无法回答关于您公司内部文档、个人笔记等非公开信息的问题。
•适用场景:通用知识问答、创意写作、翻译、代码生成(通用模式)等不需要最新或特定外部信息的任务
核心特点:1.规模巨大:
•训练数据量巨大:通常使用互联网上几乎所有的公开文本(如书籍、文章、代码、网页等)进行训练,数据量可达TB甚至PB级别。•模型参数巨大:模型内部的参数(可以理解为模型的“知识”节点)数量极其庞大,从数十亿到数万亿不等。例如,OpenAI的GPT-3有1750亿个参数。
2.基于Transformer架构:现代绝大多数LLM都基于Google在2017年提出的Transformer模型架构。这项技术是LLM能够如此强大的关键,它让模型能够更好地理解上下文和长文本中的复杂关系。3.核心能力:
•生成文本:根据给定的提示(Prompt),生成连贯、流畅且相关的新文本。比如写文章、写诗、编故事、写邮件等•理解语言:理解问题的意图、总结长篇文章的要点、翻译语言、分析情感等•逻辑推理:进行一定程度的常识推理和逻辑推导•编写代码:根据自然语言描述生成代码片段(Codex, CodeLlama等模型专精于此)
常见的LLM例子:
•OpenAI 的 GPT 系列:如 GPT-4, GPT-3.5-turbo (ChatGPT背后的模型)•Google 的 Gemini 系列:如 Gemini 1.5,是Google DeepMind开发的多模态模型。•Meta 的 Llama 系列:如 Llama 3
|
|