小互日报-2 月 26 日
type
status
summary
date
slug
tags
category
password
icon
1⃣️
👄VSP-LLM:理解和翻译视频中的唇语
- 将视频中唇动转化为文本,实现视觉语音识别和翻译。
- 基于AV-HuBERT模型,利用先进技术识别语音信息。
- 智能去除不必要重复信息,提高处理效率。
🔗 https://github.com/facebookresearch/av_hubert
2⃣️
🔍MIRAGE:提升医学问答性能的检索增强生成框架
- 使用最新可信文档辅助LLMs,减少错误信息,提升回答准确性。
- MIRAGE应用MedRAG,某些模型性能提升至GPT-4水平。
🔗 https://teddy-xionggz.github.io/benchmark-medical-rag/
🔗 https://arxiv.org/abs/2402.13178
3⃣️
🎮Genie:从单图生成无限可玩游戏场景
- 支持合成图像、真实照片、手绘草图转化成可互动游戏场景。
- 降低创造复杂虚拟环境门槛,加速内容创作和游戏开发。
🔗 https://x.com/xiaohuggg/status/1761981007929176541?s=20
4⃣️
🌟Sora完整能力曝光:视频和图像的全方位处理与生成
- 生成、编辑、识别、处理、理解视频和图像内容。
- Sora展现出与Gemini 1.5 Pro相似的视频理解能力,能分析长达1小时的视频。
🔗 https://x.com/xiaohuggg/status/1761938064421867782?s=20