小互日报-1 月 29 日

type

status

summary

date

slug

category

password

icon

1⃣️

📘LLMs-from-scratch 项目：

LLMs-from-scratch：教你如何从零开始制作一个类似于ChatGPT这样的大语言模型。

该项目详细解释了LLMs的工作原理，并通过清晰的文本、图表和示例，逐步引导读者创建自己的LLM。

适合企业团队、初创公司和教育机构来培训学习！

项目详细介绍了创建像ChatGPT这样的大型基础模型时所使用的方法。还涉及到使用一些工具来帮助编程，比如Codespaces和Copilot。

还计划介绍如何在未标记数据上进行预训练、文本分类的微调、以人类反馈进行微调以及在实践中使用大型语言模型等主题。

主要包括：

实战指南：提供了构建LLM的逐步指南，包括代码和解释。

多个章节：涵盖从理解LLMs到实际应用的多个方面。

实用示例：通过Jupyter Notebook提供实用的编程示例。

🔗 https://github.com/rasbt/LLMs-from-scratch

预计在2025年初出版的这本书，将为想要深入了解并实践LLM的读者提供宝贵的资源。

2⃣️

💡SliceGPT - 微软开发的大语言模型压缩方法：

SLICEGPT能够在保持99%，99%，和90%零样本任务性能的同时，将LLAMA2-70B、OPT 66B和Phi-2模型分别去除高达25%的模型参数（包括嵌入）。

使用SLICE GPT的模型可以在更少的GPU上运行，并且运行速度更快，无需任何额外的代码优化。

在24GB的消费级GPU上，将LLAMA2-70B的总计算量减少到密集模型的64%；在40GB的A100 GPU上减少到66%。

主要特点：

SLICE GPT解决了大语言模型在存储和计算资源上的高需求问题。

提供了一种有效减轻这些资源需求的方法，同时保持或仅轻微牺牲模型性能，这对于推广大型模型的应用和降低运行成本具有重要意义。

1、减少模型尺寸：通过在不损失显著性能的前提下，减少模型参数数量，SLICE GPT能够减少大型语言模型的尺寸。这一点通过删除权重矩阵中的行和列来实现，从而减少了模型的存储需求。

2、提高计算效率：通过减少模型尺寸，SLICE GPT同样提高了模型在硬件上的运行效率，减少了所需的计算资源。这使得大型模型能够在较小或者更少的硬件资源上运行，提高了模型的可用性。

3、保持模型性能：SLICE GPT采用的稀疏化方法能够在去除一定比例的模型参数的同时，保持模型的性能。这是通过精心设计的稀疏化策略来实现的，确保了重要的信息和模型的学习能力不会因为参数的减少而受损。

4、灵活性：SLICE GPT不仅适用于特定的模型或架构，它的方法可以广泛应用于各种变换器网络模型，包括但不限于LLAMA2-70B、OPT 66B和Phi-2等模型。

工作原理：

SLICE GPT的工作原理基于一种新的后训练稀疏化方案，这种方案通过两个关键步骤来减少大型语言模型的计算和内存需求：

1、替换权重矩阵：它将模型中的每个权重矩阵替换为一个更小的（密集的）矩阵。这一步骤通过减少网络的嵌入维度，有效地缩减了模型的大小。

2、维持计算不变性：SLICE GPT引入了变换器网络中的“计算不变性”概念。这意味着，可以通过特定的变换操作，改变权重矩阵的形状，而不改变其在模型中的功能和影响。具体来说，就是通过删除或减少转换后权重矩阵的行或列，达到减少模型参数的目的，同时保持模型的性能。

这种方法的核心优势在于，它允许模型在去除一定比例的参数后，仍然能够保持接近原始模型的性能。这样，模型就可以在较低的资源需求下运行，同时减少了运行时的计算负担和内存使用。这对于在资源受限的设备上部署大型模型特别有价值，比如普通的个人电脑或者移动设备。

🔗 https://arxiv.org/abs/2401.15024

3⃣️

👁️🌐 VisualWebArena - 自主智能体的视觉网络任务基准测试：

网页自主操作智能体的基准测试也有论文和数据了，来自卡耐基梅隆大学。

VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks

摘要：自主智能体在网络环境中规划、推理和执行任务的能力，为计算机任务的自动化开辟了新的可能性。然而，大多数现有的评估标准都集中在文本处理的智能体上，忽略了许多依赖视觉信息才能有效解决的任务。

考虑到计算机界面大多设计来满足人类的视觉感知，视觉信息往往以一种纯文本模型难以有效捕捉的方式补充文本信息。为了解决这一问题，我们推出了VisualWebArena（视觉网络竞技场），这是一个专门设计来评估多模态网络智能体在现实的视觉相关任务上表现的基准评估工具。

VisualWebArena包含了一系列多样且复杂的网络任务，用于评价自主多模态智能体的各种能力。要想在这个评估中表现出色，智能体需要准确处理图像和文本输入，理解自然语言指令，并在网站上执行操作以实现用户定义的目标。我们对基于最新的大语言模型（LLM）的自主智能体进行了全面评估，包括多种多模态模型。通过深入的定量和定性分析，我们识别出了纯文本LLM智能体的若干限制，并揭示了最先进的多模态语言智能体在能力上的不足。

VisualWebArena为多模态自主语言智能体的评估提供了一个框架，并为构建更强大的网络自主智能体提供了洞察。

🔗 https://arxiv.org/abs/2401.13649

🔗 https://jykoh.com/vwa