直达「 通往AGI之路 」飞书知识库 →
小互日报-1 月 29 日
小互日报-1 月 29 日
资讯|2024-1-29|最后更新: 2024-1-30
type
status
summary
date
slug
tags
category
password
icon
1⃣️
📘LLMs-from-scratch 项目:
LLMs-from-scratch:教你如何从零开始制作一个类似于ChatGPT这样的大语言模型。
该项目详细解释了LLMs的工作原理,并通过清晰的文本、图表和示例,逐步引导读者创建自己的LLM。
适合企业团队、初创公司和教育机构来培训学习!
项目详细介绍了创建像ChatGPT这样的大型基础模型时所使用的方法。还涉及到使用一些工具来帮助编程,比如Codespaces和Copilot。
还计划介绍如何在未标记数据上进行预训练、文本分类的微调、以人类反馈进行微调以及在实践中使用大型语言模型等主题。
主要包括:
  • 实战指南:提供了构建LLM的逐步指南,包括代码和解释。
  • 多个章节:涵盖从理解LLMs到实际应用的多个方面。
  • 实用示例:通过Jupyter Notebook提供实用的编程示例。
预计在2025年初出版的这本书,将为想要深入了解并实践LLM的读者提供宝贵的资源。
notion image
 
2⃣️
💡SliceGPT - 微软开发的大语言模型压缩方法:
SLICEGPT能够在保持99%,99%,和90%零样本任务性能的同时,将LLAMA2-70B、OPT 66B和Phi-2模型分别去除高达25%的模型参数(包括嵌入)。
使用SLICE GPT的模型可以在更少的GPU上运行,并且运行速度更快,无需任何额外的代码优化。
在24GB的消费级GPU上,将LLAMA2-70B的总计算量减少到密集模型的64%;在40GB的A100 GPU上减少到66%。
 
主要特点:
SLICE GPT解决了大语言模型在存储和计算资源上的高需求问题。
提供了一种有效减轻这些资源需求的方法,同时保持或仅轻微牺牲模型性能,这对于推广大型模型的应用和降低运行成本具有重要意义。
1、减少模型尺寸:通过在不损失显著性能的前提下,减少模型参数数量,SLICE GPT能够减少大型语言模型的尺寸。这一点通过删除权重矩阵中的行和列来实现,从而减少了模型的存储需求。
2、提高计算效率:通过减少模型尺寸,SLICE GPT同样提高了模型在硬件上的运行效率,减少了所需的计算资源。这使得大型模型能够在较小或者更少的硬件资源上运行,提高了模型的可用性。
3、保持模型性能:SLICE GPT采用的稀疏化方法能够在去除一定比例的模型参数的同时,保持模型的性能。这是通过精心设计的稀疏化策略来实现的,确保了重要的信息和模型的学习能力不会因为参数的减少而受损。
4、灵活性:SLICE GPT不仅适用于特定的模型或架构,它的方法可以广泛应用于各种变换器网络模型,包括但不限于LLAMA2-70B、OPT 66B和Phi-2等模型。
 
工作原理:
SLICE GPT的工作原理基于一种新的后训练稀疏化方案,这种方案通过两个关键步骤来减少大型语言模型的计算和内存需求:
1、替换权重矩阵:它将模型中的每个权重矩阵替换为一个更小的(密集的)矩阵。这一步骤通过减少网络的嵌入维度,有效地缩减了模型的大小。
2、维持计算不变性:SLICE GPT引入了变换器网络中的“计算不变性”概念。这意味着,可以通过特定的变换操作,改变权重矩阵的形状,而不改变其在模型中的功能和影响。具体来说,就是通过删除或减少转换后权重矩阵的行或列,达到减少模型参数的目的,同时保持模型的性能。
 
这种方法的核心优势在于,它允许模型在去除一定比例的参数后,仍然能够保持接近原始模型的性能。这样,模型就可以在较低的资源需求下运行,同时减少了运行时的计算负担和内存使用。这对于在资源受限的设备上部署大型模型特别有价值,比如普通的个人电脑或者移动设备。
notion image
 
3⃣️
👁️🌐 VisualWebArena - 自主智能体的视觉网络任务基准测试:
网页自主操作智能体的基准测试也有论文和数据了,来自卡耐基梅隆大学。
VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks
摘要: 自主智能体在网络环境中规划、推理和执行任务的能力,为计算机任务的自动化开辟了新的可能性。然而,大多数现有的评估标准都集中在文本处理的智能体上,忽略了许多依赖视觉信息才能有效解决的任务。
考虑到计算机界面大多设计来满足人类的视觉感知,视觉信息往往以一种纯文本模型难以有效捕捉的方式补充文本信息。为了解决这一问题,我们推出了VisualWebArena(视觉网络竞技场),这是一个专门设计来评估多模态网络智能体在现实的视觉相关任务上表现的基准评估工具。
VisualWebArena包含了一系列多样且复杂的网络任务,用于评价自主多模态智能体的各种能力。要想在这个评估中表现出色,智能体需要准确处理图像和文本输入,理解自然语言指令,并在网站上执行操作以实现用户定义的目标。我们对基于最新的大语言模型(LLM)的自主智能体进行了全面评估,包括多种多模态模型。通过深入的定量和定性分析,我们识别出了纯文本LLM智能体的若干限制,并揭示了最先进的多模态语言智能体在能力上的不足。
VisualWebArena为多模态自主语言智能体的评估提供了一个框架,并为构建更强大的网络自主智能体提供了洞察。
notion image
 
4⃣️
🔥百川智能的Baichuan 3模型:
 
在医疗领域的中文任务中也表现突出,成为了表现最佳的大模型之一。
对中华传统文化的深刻理解,在传统文化的诗词创作上,Baichuan 3展现了其对格式、韵律和表意等方面的深刻理解!
 
Baichuan 3的主要性能高点包括:
1.在中文任务评测中的卓越表现:Baichuan 3在多个权威的中文任务评测中展现出了优异的性能,甚至在某些领域超越了GPT-4。
2.医疗领域的应用:通过构建超千亿Token的医疗数据集和针对性的训练优化,Baichuan 3实现了在医疗领域的高精度诊断和建议,其医疗能力逼近GPT-4水平。
3.创新技术的应用:引入了多种创新技术如“动态数据选择”、“重要度保持”和“异步CheckPoint存储”等,显著提高了模型的训练效率和数据质量。
4.迭代式强化学习的突破:Baichuan 3突破了“迭代式强化学习”技术,进一步提升了其语义理解和生成能力,特别是在诗词创作等方面表现优异。
5.对中华传统文化的深刻理解:在传统文化的诗词创作上,Baichuan 3展现了其对格式、韵律和表意等方面的深刻理解,有助于中华传统文化的传承和发展。
🔗 https://x.com/xiaohuggg/status/1751830719222124727?s=20
notion image
 
5⃣️
📱 Apple Vision Pro 最新宣传片:
AI 春晚小互日报-1 月 28 日