小互日报-1 月 26 日
type
status
summary
date
slug
tags
category
password
icon
1⃣️
👚Diffuse to Choose:在线购物“虚拟试穿”模型
这个模型能让你在将任何商品放入任何环境中,同时和环境完美融合!
比如,你可以把一个在线商店的椅子放进你的客厅的照片里,看看它实际放在那里会是什么样子。
同时保证在不同环境中看起来自然和真实!
简而言之,它帮助用户更好地了解产品在真实环境中的样子,提高了在线购物的体验。
1、虚拟试穿技术:允许用户在不同环境中虚拟放置商品,实现逼真的在线购物体验。
2、与传统扩散模型相比,DTC模型能更好地捕捉商品细节,提升修复质量。采用特殊的算法,将来自参考图像的细粒度特征直接融入主扩散模型的潜在特征图中,保证产品与环境的高度融合。
3、高效平衡:在快速推断与保持高保真细节方面达到了有效的平衡。
4、广泛测试与评估:在不同数据集上测试,证明了DTC模型相较于现有技术的优越性。
5、场景适应性:能够处理多种场景中的图像,确保产品与场景的无缝整合。
6、快速推断能力:提供快速且高效的零次射推断,加快虚拟试穿过程。
2⃣️
🌐 Web LLM:在浏览器中运行大语言模型
该项目利用WebGPU加速,无需服务器支持,所有操作都在浏览器内运行。
这为构建面向每个人的AI助手开启了新的可能性。
这意味着以后大语言模型可以在任意设备上运行!
主要特点:
1.支持多种模型:支持多种模型,包括Llama 2 7B/13B、Llama 2 70B、Mistral 7B以及WizardMath等。
2.运行环境和要求:项目在Chrome 113中提供WebGPU支持。用户可以在支持的浏览器中直接尝试不同的模型。首次运行时需要下载模型参数,之后的运行将更快。
3.聊天演示:提供了基于Llama 2、Mistral-7B及其变体和RedPajama-INCITE-Chat-3B-v1模型的聊天演示。未来还将支持更多模型。
4.开源和开发支持:项目鼓励开发者使用WebLLM作为基础npm包,并在其上构建自己的Web应用程序。相关文档和GitHub资源可供参考。
项目目标与愿景:
该项目旨在为生态系统带来更多多样性,尤其是将LLMs直接嵌入到客户端并在浏览器内运行。这样做可以降低成本、增强个性化和保护隐私。
3⃣️
🎨 SUPIR:图像修复模型
通过参数增加使得模型不仅能够修复图像中的错误或损坏,还能根据文本提示进行智能修复。
例如根据描述来改变图像中的特定细节。这样的处理方式提升了图像修复的质量和智能度,使得模型能够更准确、更灵活地恢复和改进图像。
SUPIR的主要功能:
图像修复:
SUPIR的核心功能是对低质量或损坏的图像进行修复,提高其视觉质量。这包括处理如模糊、噪点、色彩失真等问题,使图像恢复到高清晰度和高质量状态。
文本引导的修复:
SUPIR能够根据文本提示来指导图像修复。这意味着用户可以通过文本描述来指定希望修复或改变的图像部分,使得修复过程更加定制化和精确。
核心技术创新:
1、模型放大: SUPIR通过扩大模型规模(即增加模型的参数数量)来提升图像修复的能力。这种放大使得模型能够学习更多的特征,处理更复杂的图像修复任务。
2、多模态技术: 结合了图像处理和文本处理的技术,允许模型不仅理解图像内容,还能理解与之相关的文本描述,从而进行更准确的修复。
3、高质量训练数据集:收集了2000万高质量图像和文本注释,用于训练和控制图像修复。利用大量高分辨率、高质量的图像和相关文本注释作为训练数据,提高了模型的性能和适用性。
4、负质量提示: 通过引入质量较差的图像样本和相应的负面描述作为训练数据,进一步提升模型在感知质量方面的表现。
工作原理:
1、图像编码与解码: SUPIR利用一个编码器将低质量图像映射到潜在空间,然后使用解码器重建修复后的图像。
2、文本处理: 通过一个多模态语言模型,SUPIR能够理解与图像相关的文本描述,并将这些信息融入到图像修复过程中。
3、适配器设计: SUPIR设计了一个大规模适配器,用于将模型的生成能力调整到与输入图像相匹配的状态,确保修复过程符合用户的具体需求。
4、采样方法: 采用特殊的采样方法,用于指导图像的恢复过程,以防止过度生成,确保修复后的图像保持真实和高质量。
实验结果:
在多种IR任务上展示了出色的修复效果,特别是在复杂和具挑战性的真实世界场景中
1、多样化的图像修复任务: SUPIR被应用于各种类型的图像修复任务,包括但不限于去噪、去模糊、超分辨率、色彩校正等。这显示了其广泛的适用性和灵活性。
2、真实世界的复杂场景处理: 实验中的一个重要亮点是SUPIR在处理真实世界复杂场景中的高效表现。这些场景通常包含多种类型的图像退化,如不均匀光照、运动模糊和天气影响等,这些都是传统图像修复方法难以处理的。
3、高级特性的应用: SUPIR展示了如何根据复杂的文本描述进行定制化修复。例如,它可以根据用户提供的描述,调整图像中特定对象的纹理或颜色,或者改变场景的某些元素。
4、质量评估: 在实验中,SUPIR修复的图像在质量上得到了显著提升。这通过与现有技术的对比评估,以及视觉质量和客观指标(如图像清晰度、纹理细节等)的测量来证实。
5、挑战性任务的处理: 特别值得注意的是,SUPIR在处理一些传统方法难以解决的挑战性任务时表现突出,如极度模糊或严重损坏的图像修复。
6、用户定制和互动性: 实验还展示了SUPIR在用户交互方面的能力,用户可以通过简单的文本指令控制图像的修复过程,这为图像修复提供了新的互动维度。
4⃣️
🤖 Adept Fuyu-Heavy:多模态数字代理模型
宣称是世界上第三大能力超强的多模态模型,仅次于GPT4-V和Gemini Ultra。
它特别擅长理解用户界面,这意味着可以解释和操作各种软件和应用程序的界面。
能够帮助用户执行各种任务,如自动化流程、响应查询、提供信息等。
Adept Fuyu-Heavy在多项评估和基准测试中展示了卓越的性能。
1、多模态基准测试:在MMM(Multimodal Multitask)基准测试中,Fuyu-Heavy的表现优于Gemini Pro,突显了其在多模态任务上的能力。
2、文本基准测试:尽管Fuyu-Heavy需分配部分容量处理图像数据,但在标准的文本只评估中,它的表现与Gemini Pro大体相当,甚至在MMLU(多模态语言理解)基准测试中超过了Gemini Pro。
3、长形式对话性能:经过有监督的微调和直接优化阶段后,Fuyu-Heavy在最常用的聊天评估——MT-Bench和AlpacaEval 1.0——中的表现与Claude 2.0相当,尽管它是一个更小的模型,且部分容量用于图像建模。
4、多模态性能标准:在MMM(Multimodal Multitask)基准测试上,Fuyu-Heavy略微优于Gemini Pro。此外,还包括了在VQAv2(一个视觉问答基准)和AI2D(一个图表理解数据集)上的结果。
Adept Fuyu-Heavy的主要能力包括:
1、多模态理解和生成: Fuyu-Heavy能够处理和理解多种类型的数据,如文本和图像,并能够基于这些数据生成相应的输出。这使其在多模态任务上表现出色。
2、高效的图像和文本处理: 尽管需要部分容量用于图像建模,Fuyu-Heavy在标准文本基准测试中的表现匹敌或超越同级别的模型。
3、优化的模型架构: Fuyu-Heavy通过扩展和优化Fuyu架构,有效处理任意大小和形状的图像,并有效利用现有的变压器模型优化。
4、长形式对话性能: 经过特定训练阶段优化,Fuyu-Heavy在长形式对话和交互中表现出色。
5、用户界面理解: 特别擅长于理解数字用户界面(UI),如网站和应用程序,提供有效的自动化解决方案。意味着Fuyu-Heavy的开发重点是使其能够适应和优化数字代理的功能,如提高用户界面理解、增强自动化决策能力、提供更准确的信息检索和内容生成等。
6、跨模态内容生成: 能够生成跨越文本和图像的内容,适用于多种应用场景。
5⃣️
🔊 SpeechGPT-Gen:跨模态对话能力的大语言模型
它不仅能处理传统的文本数据,还能理解和生成语音数据,实现文本与语音之间的无缝对话。
能够接收语音输入,理解其内容,并以语音形式做出回应。
为大语言模型在处理和生成语音方面提供了强大的支持。
SpeechGPT-Gen是一个包含8亿参数的模型,有效地处理语义和知觉信息。
主要功能特点:
SpeechGPT-Gen能够接收语音输入,理解其内容,并以语音形式做出回应。这种能力使得模型在执行语音到语音对话任务时表现出色。
1、零样本文本到语音转换(Text-to-Speech):
SpeechGPT-Gen能够将给定的文本转换成语音,而且不需要提前的样本或训练数据。能够直接从文本生成自然听起来的语音。
2、零样本语音转换(Voice Conversion):
它可以改变源语音的音色,使其听起来像是另一个给定的发言者所说。这对于个性化语音应用非常有用。
3、语音到语音对话(Speech-to-Speech Dialogue):
SpeechGPT-Gen能够理解语音指令,并以类似的音色生成语音回应。这对于开发更自然的交互式语音系统特别重要。
解决的问题:
1、提高语音生成效率: 传统的大型语音语言模型在处理语义和知觉信息时存在冗余,导致效率低下。SpeechGPT-Gen通过分离这两种信息的建模,有效地提高了语音生成的效率。
2、增强模型的泛化能力: 它在未见过的发言者上展示了优秀的泛化能力,这意味着它能够处理各种不同的语音类型和风格。
3、提供更多样的语音应用: 通过支持零样本的文本到语音、语音转换和语音对话,SpeechGPT-Gen为语音技术的应用提供了更广泛的可能性,如语音合成、个性化语音生成等。
技术创新:
1、链式信息生成: SpeechGPT-Gen引入了这种新方法来分离和处理语音的语义和知觉信息。这种方法减少了传统方法中的冗余和低效率。
2、自回归和非自回归模型的结合:
自回归模型: 用于处理语义信息。基于大型语言模型(LLM),这一部分负责理解和生成语音的含义和内容。
非自回归模型: 使用流匹配技术(flow matching)处理知觉信息,即声音的感觉特征(如音色和节奏)。
3、语义信息的先验注入: 在流匹配中,SpeechGPT-Gen引入了一种创新的方法,将语义信息注入到先验分布中,从而提高流匹配的效率。
工作原理:
1、语义建模: 通过自回归模型,SpeechGPT-Gen首先对语音或文本的语义内容进行建模。这一步涉及理解语音或文本的含义,为后续的知觉建模提供基础。
2、知觉建模: 接着,非自回归模型通过流匹配技术处理知觉信息,即生成具有特定音色和风格的语音。
3、流匹配技术: 流匹配通过建立从简单先验分布到复杂数据分布的转换来工作。在SpeechGPT-Gen中,这个过程利用了语义信息作为先验,从而更高效地生成知觉信息。
4、综合生成: 通过这两个步骤,SpeechGPT-Gen能够先理解语音或文本的意义,然后生成具有相应含义的语音输出,具有良好的语义和知觉一致性。
这种结合了自回归和非自回归模型的方法,以及流匹配技术的应用,使得SpeechGPT-Gen在多种跨模态任务(如零样本文本到语音、语音转换和语音到语音对话)中表现出色,具有较强的灵活性和效率。
🔗 https://arxiv.org/abs/2401.13527
🔗 https://github.com/0nutation/SpeechGPT
🔗 https://x.com/xiaohuggg/status/1750694801517969900?s=20
6⃣️
💡 OpenAI推出新一代嵌入模型
同时更新的GPT-4 Turbo预览版模型,提高了代码生成等任务的完成度,以及减少错误!
新嵌入模型推出:
- 推出了两种新的嵌入模型:text-embedding-3-small和text-embedding-3-large。
新一代向量大模型text-embedding-3,embedding长度升级,价格最高下降5倍,包含2个版本,新增了一个可以控制生成的向量长度的参数!
新一代嵌入模型性能对比:
- 小型模型(text-embedding-3-small)对比:与上一代模型text-embedding-ada-002相比,新模型在多语言检索基准(MIRACL)上的平均得分从31.4%提高到44.0%,在英语任务基准(MTEB)上的平均得分从61.0%提高到62.3%。
- 大型模型(text-embedding-3-large)对比:与text-embedding-ada-002相比,在MIRACL上平均得分从31.4%提高到54.9%,在MTEB上从61.0%提高到64.6%。
- 新模型的性能普遍优于上一代模型,尤其是在多语言检索方面表现出色。
GPT-3.5 Turbo降价对比:
- 新的GPT-3.5 Turbo模型gpt-3.5-turbo-0125的输入价格降低50%,至$0.0005 /1K tokens,输出价格降低25%,至$0.0015 /1K tokens。
- 降价旨在帮助客户扩大规模使用,同时该模型还包含多项改进,如提高响应准确度和修复非英语语言功能调用的文本编码问题。
新内容审核模型发布:
- 发布了新的内容审核模型text-moderation-007,作为提高内容安全的一部分。
API使用和管理改进:
- 提供了更多的API使用可视化和控制工具,如API密钥权限分配和API使用情况的仪表板。