萍聚社区-德国热线-德国实用信息网

 找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 459|回复: 0

[计算机] 小互的AI日报:AI生成音乐模型、大模型幻觉排行榜、智能自动解说视频、英伟达发布全球最强AI芯片H200…

[复制链接]
发表于 2023-11-14 15:53 | 显示全部楼层 |阅读模式
作者:互联网的那点事
Welcome, AI enthusiasts.

欢迎来到XiaoHu.AI日报

11月14日小互 AI 日报更新:

      D-POINT: 开源数字手写笔



      AI VoiceOver:智能视频语音解说
      大模型幻觉榜:GPT-4 领先,Google垫底 NVIDIA H200 - 英伟达的新一代 AI 芯片

      MM-Navigator:智能手机界面导航助手

      Music ControlNet :精准控制音乐生成的AI

      如何在创建GPTs时候调用外部API


阅读时长: 5 minutes
01

D-POINT: 开源数字手写笔

D-POINT 是一个创新的开源数字手写笔项目,结合了摄像头追踪和惯性测量技术,提供了六自由度(6DoF)输入。这款手写笔具有低延迟、压力敏感度和亚毫米精度的特点,能在任何平面上使用,且兼容普通消费级网络摄像头。
    硬件设计:3D 打印的笔体,包含力感应器、USB-C 充电的锂离子电池和基于Arduino的开发板。 视觉姿态估计:通过 OpenCV 进行标记检测、滚动快门校正、透视n点算法和坐标转换,实现高精度定位。 惯性融合:利用扩展卡尔曼滤波器和 Rauch-Tung-Striebel 算法融合VPE估计和惯性数据,采用负时间测量更新算法解决时间延迟问题。
D-POINT 的开发是基于电子工程的本科论文,旨在提供给感兴趣的人作为参考和实验项目,而非即插即用的 DIY 产品。GitHub:https://github.com/Jcparkyn/dpoint


video: https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_3193986261632663558
02


AI VoiceOver:智能视频语音解说

使用 OpenAI 的 GPT 4V API 和 TTS 技术,AI VoiceOver 能够识别视频内容并自动为视频添加语音解说。这项服务支持最大 100MB 的视频文件。上传视频后,系统将自动分析识别视频内容,随后生成解说词并转换成语音,以实现自动配音解说。

功能亮点:
03

大语言模型的幻觉排行榜:GPT-4领先,Google垫底近期,由 @vectara 发布的大语言模型幻觉排行榜显示,在总结短文档时不同模型产生幻觉的表现有显著差异。排行榜基于模型在总结文档时引入幻觉的频率进行评估。
    GPT-4的表现:GPT-4 在榜单上表现出色,准确率达到了 97.0%,幻觉率仅为3.0%,回答率为 100.0%。 Google Palm的表现:与之相反,Google Palm 的两款模型表现不佳。特别是Palm Chat 2,准确率仅为 72.8%,幻觉率高达 27.2%,回答率为 88.8%。 评估方法:这个排行榜由 @vectara 的幻觉评估模型计算得出,该模型检测大语言模型(LLM)在总结文档时产生幻觉的频率。排行榜数据会根据模型和LLM的更新而定期更新。 关键数据:排行榜包括了不同模型的准确率、幻觉率、回答率和平均总结长度(词数)。 研究背景:为了确定这个排行榜,Vectara 训练了一个模型来检测 LLM 输出中的幻觉,并使用了开源数据集进行评估。他们向不同的 LLM 提供了 1000 个短文档进行总结,最终使用 831 个文档的数据进行了评估。 开源信息: Hugging Face:https://huggingface.co/vectara/hallucination_evaluation_modelGitHub:https://github.com/vectara/hallucination-leaderboard



04

NVIDIA H200 - 英伟达的新一代 AI 芯片

H200,英伟达的最新 AI 芯片,基于先进的 Hopper 架构,提供了前所未有的性能和内存升级。关键特性:
    性能提升显著: H200 的推断速度是 H100 的两倍,大幅提升 AI 运算能力。 内存升级: 首次采用 HBM3e 内存,显存带宽达到惊人的 4.8TB/秒。 成本效益: 在保持与 H100 相同功耗的情况下,实现性能提升,提供更高的经济优势。 兼容性强:与 H100 兼容,便于用户升级。 支持 Transformer 架构: 加速大型语言模型和深度学习模型的处理。
    云服务部署:从2 024 年第二季度起,多家云服务提供商将提供基于 H200 的云实例。





05

MM-Navigator:基于 GPT-4V 的智能手机界面导航助手

MM-Navigator 能够像人类用户一样与智能手机屏幕进行交互,准确地确定和执行给定指令的后续动作。技术突破:
    界面理解与操作: GPT-4V 无需先前训练即可理解和操作智能手机界面。 能力优势: 具有先进的屏幕解释、动作推理和精确动作定位能力
性能评估:
    基准测试:研究者在 iOS 屏幕数据集上对 MM-Navigator 进行了基准测试。 动作生成与执行: 根据屏幕信息和用户指令,生成合理动作描述,执行准确率为 91%,单个指令执行准确率为 75%。
附加研究:
在 Android 屏幕导航数据集的子集上的评估显示,MM-Navigator 在零样本情况下的表现超过了之前的 GUI 导航器。

论文地址:https://arxiv.org/pdf/2311.07562.pdf





06


Music ControlNet :一种类似于SD ControlNetD 能精准控制音乐生成的模型

可以让使用者非常精确地控制音乐的各种元素,比如旋律、音量的强弱,以及节奏的快慢。甚至可以细致地调整音乐的每一个小细节。Music ControlNet 不仅能够控制音乐的全局属性(如风格、情绪和节奏),还能精确控制音乐的时间变化属性,例如节拍的位置和音乐的动态变化。

它能够根据用户的指令,生成符合要求的音乐。比如说,如果你想要一段旋律在特定的时间点出现,或者想要音乐在某个部分变得更加激烈,Music ControlNet 都能做到。

工作原理:

Music ControlNet 采用了一种类似于图像领域 ControlNet 方法的像素级控制方式。它通过从训练音频中提取控制信息,然后对基于扩散的条件生成模型进行微调,从而实现对音频频谱图的控制。

这种方法包括旋律、动态和节奏控制。该模型还提供了一种新策略,允许创作者输入部分指定时间的控制信息。在评估时,研究人员不仅考虑了从音频中提取的控制信息,还考虑了创作者可能提供的控制信息,证明了该模型能够根据输入的控制信息生成真实的音乐。

项目及演示:https://musiccontrolnet.github.io/web/
论文:https://arxiv.org/abs/2311.07069


video: https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_3194090027572772866
07


GPTs 推荐及教程
宝玉:如何创建一个能调用 API 的天气艺术家?

链接地址:https://chat.openai.com/g/g-rqMwQFXaT-tian-qi-yi-zhu-jia


video: https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_3193987401577381889
教程演示小互:根据天气生成图片的GPT CityWeatherArt
链接地址:https://chat.openai.com/g/g-aTdwKcgsE-cityweatherart



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

手机版|Archiver|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-2-7 01:21 , Processed in 0.067346 second(s), 16 queries , MemCached On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表