直达「 通往AGI之路 」飞书知识库 →
小互日报-2 月 8 日
小互日报-2 月 8 日
资讯|2024-2-8|最后更新: 2024-2-19
type
status
summary
date
slug
tags
category
password
icon
1⃣️
🚀 Gemini Ultra 上线,Bard更名为Gemini:
  • Gemini Ultra带来界面优化、Gemini Advanced付费计划。
  • 提供复杂任务执行能力,如编程、逻辑推理。
  • 即将推出Gemini APP,与Google应用集成。
🔗 https://gemini.google.com/updates
 
2⃣️
🤖 OpenAI开发新型代理软件:
  • 代理软件通过控制设备自动完成任务。
  • 支持文档数据转移到电子表格、自动填写费用报告。
🔗 https://x.com/xiaohuggg/status/1755587992067125449?s=20
notion image
 
3⃣️
🎶 Stability AI发布AudioSparx 1.0音乐模型:
  • 高效生成长达95秒的立体声音乐。
  • 支持可变长度音频输出和立体声渲染。
  • 性能优于AudioLDM2和MusicGen。
🔗 https://arxiv.org/abs/2402.04825
🔗 https://github.com/Stability-AI/stable-audio-tools
🔗 https://github.com/Stability-AI/stable-audio-metrics
🔗 https://stability-ai.github.io/stable-audio-demo/
 
4⃣️
🔍 Vision Pro拆解揭示显示技术:
  • 双显示屏分辨率和像素密度超高。
  • 电池包复杂设计,提供高容量。
  • 显示体验高密度,展示Apple技术领先。
🔗 https://ifixit.com/News/90409/vision-pro-teardown-part-2-whats-the-display-resolution
🔗 https://x.com/xiaohuggg/status/1755558069143306328?s=20
 
5⃣️
📢 YOLO-World:腾讯AI实验室开发的一个实时目标检测工具
它能够自动识别和定位图像中的各种对象
YOLO-World在速度和准确性方面都优于许多最先进的方法。 零样本检测能力,无需训练即可进行实时目标检测,即便某些物品之前没有见过。
主要特点:
1、大规模学习:
YOLO-World通过学习大量的图片和对应的描述(如物品名称),获得了丰富的视觉知识和语言知识,这使得它能识别出广泛的物品。 该项目在包括Objects365、GQA、Flickr30K和CC3M在内的大规模视觉-语言数据集上进行了预训练,赋予了YOLO-World强大的零样本开放词汇能力和图像中的定位能力。
2、快速准确:Y
OLO-World在LVIS数据集上的零样本评估中达到了35.4 AP,并且在V100上的处理速度为52.0 FPS,速度和准确性均超过许多最先进的方法。即使是在包含复杂场景的图片中也能保持高准确率。YOLO-World 声称比 GroundingDINO 快 20 倍。
3、零样本检测:
最令人印象深刻的是,即便某些物品YOLO-World之前没有见过,它也能凭借先前的学习和理解能力,通过图片中的线索和上下文信息,成功识别和定位这些新物品。 4、理解物体:YOLO-World不仅依靠视觉信息,还结合了语言信息。它理解人类的语言描述,这让它能够识别出即使是之前没有直接见过的物体。
项目及演示:http://yoloworld.cc
6⃣️
🤖 Archax操作型机器人详解:
  • 总高度4.5米,重量3.5吨,26个关节自由度。
  • 机器人/车辆模式,最高速度10km/h。
  • 驾驶舱内部设有四面显示屏和九个摄像头。
🔗 https://x.com/xiaohuggg/status/1755445005739753592?s=20
 
7⃣️
🏥 CheXagent自动解读胸部X光图像:
  • 自动分析胸部X光,生成放射学报告。
  • 解读性能高效,超越通用和医疗领域模型。
  • 支持多样化任务处理,如图像理解、问题回答。
🔗 https://stanford-aimi.github.io/chexagent.html
🔗 https://arxiv.org/abs/2401.12208
🔗 https://github.com/Stanford-AIMI/CheXagent
🔗 https://x.com/xiaohuggg/status/1755434771994525928?s=20
 
8⃣️
🔊 MetaVoice-1B文本到语音转换模型:
  • 1.2亿参数,10万小时语音数据训练。
  • 支持情感语音节奏、跨语言语音克隆。
  • 零样本克隆支持,适合长篇内容语音合成。
🔗 https://huggingface.co/metavoiceio/metavoice-1B-v0.1
🔗 https://github.com/metavoiceio/metavoice-src
🔗 https://ttsdemo.themetavoice.xyz
🔗 https://x.com/xiaohuggg/status/1755423130464772568?s=20
 
小互日报-2 月 9 日小互日报-2 月 7 日