萍聚社区-德国热线-德国实用信息网

 找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 216|回复: 0

AI开源项目包大全-开源云原生一站式机器学习/深度学习/大模型AI平台

[复制链接]
发表于 2025-1-24 08:16 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
作者:微信文章
Cube Studio 是一个开源的云原生一站式机器学习/深度学习/大模型 AI 平台,覆盖从开发、训练到推理、应用的全链路(!!!下载链接见文末!!!)。

以下是其核心功能和技术支持:
核心功能


    一站式开发与管理

      支持 SSO 登录、多租户管理。

      提供 Notebook 在线开发环境(JupyterLab/VSCode),支持多种语言。

      拖拉拽任务流 Pipeline 编排,支持分布式训练。

    模型训练与优化

      支持多机多卡分布式训练,兼容 PyTorch、TensorFlow、MXNet、PaddlePaddle 等主流框架。

      集成超参搜索工具(如 NNI、Ray),支持 VGPU 推理服务。

    大模型支持

      提供 AIHub 模型市场,支持 40+ 开源大模型一键部署和微调。

      支持 LLMOps(大模型开发运维一体化),涵盖大模型的开发、部署和优化。

    数据管理与标注

      集成数据标注平台,支持自动化标注。

      提供数据集管理、ETL 编排和数据地图功能。

    部署与运维

      支持私有化部署、边缘集群部署和 Serverless 集群模式。

      集成监控和推送功能,支持多集群资源管理。

技术支持


    硬件兼容:支持国产 CPU/GPU/NPU 芯片,兼容 RDMA 网络协议。

    框架支持:支持 PyTorch、TensorFlow、MXNet、DeepSpeed、Horovod、Spark、Ray 等。

最新版本功能优化:

添加和优化Jupyter、VSCode支持,包括SSH服务能力和本地显示Matplotlib。
升级基础镜像,支持华为910、ARM64、NVCC版本GPU镜像和devel版本CUDA镜像,更新英伟达基础镜像。
优化GPT地址配置兼容性,代码中镜像域名不写死,避免内网拉取不到镜像的问题。
增加和优化ARM64镜像,增加gamma角色权限,优化用户权限界面和操作权限。
修正部署问题,密码修正为密文存储,优化初始化过程,修正挂载和代理IP问题。
优化和完善文档,包括中英文翻译和帮助文档位置更新。
支持JSON类型输入,pipeline编排任务参数支持提示信息(tip)。
数据集模块优化,包括跳转到Notebook上传和模板升级。
修复前端显示问题,包括详情页面缩进、表格显示、部分搜索列表不显示中文等问题。
增加LDAP单点登录和安全登录,完善安全扫描。
视频跟踪自动化标注,优化多目标跟踪模型,增加YOLO跟踪AIHub应用和示例。
在线VSCode增加SSH服务能力,IDE SSH远程自动Python。
更新和优化镜像源、仓库账号和拉取秘钥,设置镜像拉取策略环境变量。
新增和优化多分类模型支持,包括LightGBM、KNN、GBDT、决策树、XGBoost、Adaboost和LR的多分类及离线推理结果概率列名转换。
AIHub部署支持配置项目组,增加独立应用构建镜像和任务模板。
优化和删除冗余代码,去除非必要文件,减少日志打印。
升级流量代理认证和计量计费账单功能,优化账单ID生成策略。
修正自动化标注模型地址和部分体验问题,更新pandas版本。
支持语种识别模型和语音分类模型,AIHub在线开发。
推理服务和Notebook支持GPU显存单独设置,升级VGPU监控。
优雅化代码,升级Istio部署,修改Grafana默认主题。
修正项目成员代码位置、镜像名、Torch-Server模型发布文件名和模型名不支持的问题。
服务发布需要先清理,升级推理服务镜像,更新TFServing的推理服务。
完善YOLOv8任务模板和示例,支持构建成AIHub应用。
Pipeline复制不保留实例信息,修正超参搜索算法可取值的问题。
更换ChatGPT Token,数据写入前增加JSON校验,更新脚本。
Notebook不显示Node Selector,完善标注导入任务模板。
内部服务支持定义首页路径,添加标注数据导入任务模板。
修复部署显示问题,修正算子打开目录时的部分Bug,Pipeline算子支持镜像调试。
示例Pipeline不允许修改,处理图标网站域名访问受限的问题。
修正数据智能中的提示信息和记忆上次会话内容,修正激活包和初始化工作目录。
增加激活码,支持菜单权限控制,更新Label Studio镜像版本。
聊天会话私有会话增加提示词构建,移动ChatWeb构建后的目录地址。
标注系统自动化标注接口添加服务内部名称,新版本标注系统对接Bug修复。
删除一些不能识别的图片,只保留一个目标识别自动化接口,优化部分代码。

----下载地址见文末----

总体框架






功能清单

cube studio是开源一站式云原生机器学习平台,目前主要包含


支持模板


多集群管控



cube支持多集群调度,可同时管控多个训练或推理集群。在单个集群内,不仅能做到一个项目组内对在线开发、训练、推理的隔离,还可以做到一个k8s集群下多个项目组算力的隔离。另外在不同项目组下的算力间具有动态均衡的能力,能够在多项目间共享公共算力池和私有化算力池,做到成本最低化。



分布式存储



cube会自动为用户挂载用户的个人目录,同一个用户在平台任何地方启动的容器,其用户个人子目录均为/mnt/$username。可以将pvc/hostpath/memory/configmap等挂载成容器目录。同时可以在项目组中配置项目组的默认挂载,进而实现一个项目组共享同一个目录等功能。



在线开发


    系统多租户/多实例管理,在线交互开发调试,无需安装三方控件,只需浏览器就能完成开发。支持vscode,jupyter,Matlab,Rstudio等多种在线IDE类型Jupyter支持cube-studio sdk,Julia,R,python,pyspark多内核版本,


    支持c++,java,conda等多种开发语言,以及tensorboard/git/gpu监控等多种插件支持ssh remote与notebook互通,本地进行代码开发在线镜像构建,通过Web Shell方式在浏览器中完成构建;并提供各种版本notebook,inference,gpu,python等基础镜像



标注平台:


    支持图/文/音/多模态/大模型多种类型标注功能,用户管理,工作任务分发对接aihub模型市场,支持自动化标注;对接数据集,支持标注数据导入;对接pipeline,支持标注结果自动化训练



拖拉拽pipeline编排



1、Ml全流程

数据导入,数据预处理,超惨搜索,模型训练,模型评估,模型压缩,模型注册,服务上线,ml算法全流程

2、灵活开放

支持单任务调试、分布式任务日志聚合查看,pipeline调试跟踪,任务运行资源监控,以及定时调度功能(包含补录,忽略,重试,依赖,并发限制,过期淘汰等功能)



分布式框架



1、训练框架支持分布式(协议和策略)
2、代码识别分布式角色(有状态)
3、控制器部署分布式训练集群(operator)
4、配置分布式训练集群的部署(CRD)
多层次多类型算子



以k8s为核心,
1、支持tf分布式训练、pytorch分布式训练、spark分布式数据处理、ray分布式超参搜索、mpi分布式训练、horovod分布式训练、nni分布式超参搜索、mxnet分布式训练、volcano分布式数据处理、kaldi分布式语音训练等,
2、 以及在此衍生出来的分布式的数据下载,hdfs拉取,cos上传下载,视频采帧,音频抽取,分布式的训练,例如推荐场景的din算法,ComiRec算法,MMoE算法,DeepFM算法,youtube dnn算法,ple模型,ESMM模型,双塔模型,音视频的wenet,containAI等算法的分布式训练。



功能模板化


    和非模板开发相比,使用模板建立应用成本会更低一些,无需开发平台。迁移更加容易,通过模板标准化后,后续应用迁移迭代只需迁移配置模板,简化复杂的配置操作。配置复用,通过简单的配置就可以复用这些能力,算法与工程分离避免重复开发。

为了避免重复开发,对pipeline中的task功能进行模板化开发。平台开发者或用户可自行开发模板镜像,将镜像注册到平台,这样其他用户就可以复用这些功能。平台自带模板在job-template目录下



流水线调试


    Pipeline调试支持定时执行,支持,补录,并发限制,超时,实例依赖等。Pipeling运行,支持变量在任务间输入输出,全局变量,流向控制,模板变量,数据时间等Pipeling运行,支持任务结果可视化,图片、csv/json,echart源码可视化


推理服务



0代码发布推理服务从底层到上层,包含服务网格,serverless,pipeline,http框架,模型计算。

    服务网格阶段:主要工作是代理流量的中转和管控,例如分流,镜像,限流,黑白名单之类的。

    serverless阶段:主要为服务的智能化运维,例如服务的激活,伸缩容,版本管理,蓝绿发布。

    pipeline阶段:主要为请求在各数据处理/推理之间的流动。推理的前后置处理逻辑等。

    http/grpc框架:主要为处理客户端的请求,准备推理样本,推理后作出响应。

    模型计算:模型在cpu/gpu上对输入样本做前向计算。

主要功能:
    支持模型管理注册,灰度发布,版本回退,模型指标可视化,以及在piepline中进行模型注册推理服务支持多集群,多资源组,异构gpu环境,平台资源统筹监控,VGPU,服务流量分流,复制,sidecar支持0代码的模型发布,gpu推理加速,支持训练推理混部,服务优先级,自定义指标弹性伸缩。




AIHub


    系统自带通用模型数量400+,覆盖绝大数行业场景,根据需求可以不断扩充。模型开源、按需定制,方便快速集成,满足用户业务增长及二次开发升级。模型标准化开发管理,大幅降低使用门槛,开发周期时长平均下降30%以上。


    AIHub模型可一键部署为WEB端应用,手机端/PC端皆可,实时查看模型应用效果点击模型开发即可进入notebook进行模型代码的二次开发,实现一键开发点击训练即可加入自己的数据进行一键微调,使模型更贴合自身场景


GPT训练微调


    cube-studio支持deepspeed/colossalai等分布式加速框架,可一键实现大模型多机多卡分布式训练AIHub包含gpt/AIGC大模型,可一键转为微调pipeline,修改为自己的数据后,便可以微调并部署


GPT私有知识库


    数据智能模块可配置专业领域智能对话,快速敏捷使用llm可为某个聊天场景配置私有知识库文件,支持主题分割,语义embedding,意图识别,概要提取,多路召回,排序,多种功能融合


GPT智能聊天


    可以将智能会话与AIHub相结合,例如下面AIGC模型与聊天会话可使用Autogpt方式串联所有aihub模型,进行图文音智能化处理智能会话与公共直接打通,可在微信公众号中进行图文音对话


三种方式部署



针对企业需求,根据不同场景对计算实时性的不同需求,可以提供三种建设模式

模式一:私有化部署——对数据安全要求高、预算充足、自己有开发能力
模式二:边缘集群部署——算力分散,多个子网环境的场景,或边缘设备场景
模式三:serverless集群——成本有限,按需申请算力的场景

程序目录结构


下载地址:回复【20250124】获得整理好的程序代码包

开源地址:https://github.com/tencentmusic/cube-studio



Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

手机版|Archiver|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-2-11 22:07 , Processed in 0.059750 second(s), 17 queries , MemCached On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表