小互日报-1 月 12 日
type
status
summary
date
slug
tags
category
password
icon
1⃣️
🔊 Anim400K数据集介绍:
- 超过425,000个音视频剪辑,总时长763小时。
- 涵盖190多部作品,包含英语和日语内容。
- 适用于自动配音、同步翻译、视频概括和分类等任务。
🔗 https://x.com/xiaohuggg/status/1745776503613505681?s=20
2⃣️
🤖 LEGO多模态理解模型:
- 由字节跳动和复旦大学开发。
- 支持图像、音频、视频输入,具备精准定位能力。
- 可用于识别图像中物体位置,视频事件时间点,音频声源。
🔗 https://x.com/xiaohuggg/status/1745763961323262056?s=20
🔗 https://lzw-lzw.github.io/LEGO.github.io/
3⃣️
🌐 苹果的跨语言理解能力提升:
- 对比校准指令(AlignInstruct)强化多语言生成。
- 改进未见和低资源语言翻译。
- 有效翻译多达24种未见语言。
🔗 https://x.com/xiaohuggg/status/1745713962325536881?s=20
4⃣️
🚀 奥特曼在YC W24的演讲重点:
- 暗示通用人工智能(AGI)接近实现。
- 建议以AGI实现为前提进行创业和技术开发。
- GPT-5可能实现指数级跳跃,带来挑战。
- 使用最先进模型比微调更有效。
- OpenAI API将变得更快、可靠、便宜。
- 不建议专注于解决GPT-4限制。
🔗 https://x.com/xiaohuggg/status/1745703281652101321?s=20
5⃣️
🎭 RADicalMotionAI面部捕捉技术:
- 同时捕捉视频中的身体动作和面部表情。
- 适用于单一视频,转化为动画数据。
- 支持实时发送到Blender、Unity、Unreal Engine。
- 动画数据可导出为FBX格式。
🔗 http://radicalmotion.com
🔗 https://x.com/xiaohuggg/status/1745678100829233310?s=20
6⃣️
👗 Ready Player Me服装设计创新:
- 使用Stable Diffusion和ControlNet生成服装纹理。
- 根据文本描述自动创建样式,如“蒸汽朋克”风格。
- 适用于3D模型,包含真实细节和质感。
- 支持多种风格,快速试验设计理念。
- 训练数据集包含约1000个Ready Player Me资产。
🔗 https://x.com/xiaohuggg/status/1745670879978414168?s=20