直达「 通往AGI之路 」飞书知识库 →
小互日报-1 月 30 日
小互日报-1 月 30 日
资讯|2024-1-30|最后更新: 2024-1-31
type
status
summary
date
slug
tags
category
password
icon
 
1⃣️
🌐 阿里巴巴多模态模型Qwen-VL更新:
  • 在多个文本-图像多模态任务上与Gemini Ultra和GPT-4V相当。
  • Qwen-VL-Max在中文问答和中文文本理解任务上超越了GPT-4V和Gemini
  • 图像相关推理能力上的大幅提升;
  • 在识别、提取和分析图像及其中文本细节上的显著增强;
  • 支持超过一百万像素的高清图像和各种宽高比的图像的处理。
 
模型介绍:
Qwen-VL-Plus:针对细节识别能力和文本识别能力进行了显著升级,支持高达数百万像素的超高像素分辨率和图像输入的任意宽高比。在广泛的视觉任务上提供了显著的性能提升。 Qwen-VL-Max:与增强版相比,进一步改进了视觉推理和指令跟随能力,提供了更高级别的视觉感知和认知理解。在更广泛的复杂任务上提供了最优性能。
 
notion image
 
2⃣️
🤖 SERL:机器人强化学习软件套件:
通常教机器人学习一个新动作需要很多次尝试和错误,就像一个人反复练习骑自行车一样。SERL的特别之处在于,它能让机器人通过更少的尝试就能快速学会新任务
它只需25到 50分钟就能学会一个新任务。而且能执行多种复杂任务,例如组装电路板、布线或者移动物体
 
主要特点:
1、高效学习:通常教机器人学习一个新动作需要很多次尝试和错误,就像一个人反复练习骑自行车一样。SERL的特别之处在于,它能让机器人通过更少的尝试就能快速学会新任务,就像有了一个超级学习能力一样。 2、适应性强:SERL能够让机器人在面对未知或变化的情况时也能够适应并完成任务。比如,如果机器人学会了在一个桌子上装配零件,即使后来桌子的位置改变了,它也能够调整自己的动作继续完成装配。 3、多任务能力:这个软件工具包教会机器人执行多种任务,比如组装电路板、布线或者移动物体到新位置。机器人不仅能学会这些任务,还能在遇到干扰或环境变化时,灵活调整自己的行为。 4、快速执行:通常,让机器人学习一个新任务需要很长时间。但是,使用SERL,机器人可以在大约半小时到一个小时之间就学会一个新任务,这比以往的方法要快得多。 5、高成功率:使用SERL的机器人在完成任务时更加可靠,即使在复杂或不确定的环境中也能保持高成功率。
 
 
 
3⃣️
🎙️ WhisperFusion:超低延迟AI语音对话:
  • 实时语音转文本。
  • 整合大型语言模型Mistral提高理解。
  • 性能优化,使用TensorRT和torch.compile加速。
  • 预构建Docker容器,易于使用。
 
4⃣️
🧠 马斯克Neuralink人机接口视频(中英字幕):
 
马斯克还宣布其脑机接口公司 Neuralink 的首款产品名为:Telepathy「心灵感应」。
该产品允许人们仅通过思考就能控制手机或电脑,进而控制几乎任何设备。最初的用户将是那些失去四肢使用能力的人。
马斯克称初步结果显示,植入设备在检测神经元尖峰活动方面表现出了有希望的结果。翻译下就是Neuralink的技术在监测大脑活动方面取得了初步的积极成果。
🔗 https://x.com/dotey/status/1752208438011060328?s=20
🔗 https://x.com/xiaohuggg/status/1752176033997152535?s=20
 
5⃣️
🖼️ Nijijourney V6动漫图像生成模型:
 
  • 增强的提示理解能力:Niji V6致力于理解并将各种主题转化为动漫风格的视觉作品,即使是一些平时动漫里不常见的主题。
  • 文本写入支持:用户现在可以在生成的图片中加入简单文本,提供更多创作的自由度和表达能力。
  • 非动漫风格选项(RAW模式):如果你想要的不只是动漫风格,Niji V6还有一个“RAW模式”,可以生成看起来更真实的图片。
  • Explain to Niji:如果Niji V6不理解某个概念,用户可以通过解释来帮助它理解。例如,解释“kasa obake”(日本伞怪)的概念后,Niji V6能够绘制出相应的图像。Niji 6鼓励用户提供更多细节以帮助模型理解和执行任务。
  • 即将推出的新特性:计划在2月底的全面发布中引入一系列新功能,如vary(Region 调整图片的某个部分)、pan(移动)和zoom(缩放),进一步增强用户体验和创作灵活性。
notion image
 
6⃣️
💻 Meta发布Code Llama 70B编程辅助模型:
 
CodeLlama-70B-Instruct 在 HumanEval 上获得 67.8 分,使其成为当今性能最高的开放模型之一。
Code Llama 70B分为三个版本:
◦ CodeLlama - 70B,基础代码模型; ◦ CodeLlama - 70B - Python,专门用于Python; ◦ 和Code Llama - 70B - Instruct 70B,为理解自然语言指令进行了微调。
Code Llama的特点包括:
  • 在编码任务上超越了目前公开可用的最先进LLM。
  • 免费提供给研究和商业用途。
  • 支持多种流行编程语言,包括Python、C++、Java、PHP、Typescript(Javascript)、C#和Bash。
  • 提供了四种不同大小的模型(7B、13B、34B、70B),每个模型都经过大量代码和代码相关数据训练。
  • 模型能够提供稳定的生成,处理高达100,000个令牌的上下文。
  • 支持插入现有代码中的代码完成等任务。
 
7⃣️
🔍 Microsoft Clarity:免费用户行为分析工具:
  • 录制网站用户行为,如点击、滚动。
  • 提供热图、会话录制、用户洞察。
  • 免费使用,支持移动应用整合。
小互日报-1 月 31 日AI 春晚