小互日报-1 月 31 日

type

status

summary

date

slug

category

password

icon

1⃣️ 🤖 微软和OpenAI对人形机器人的巨额投资：

Figure 公司致力于开发通用人形机器人，其产品 Figure 01 已展示出能够自主完成煮咖啡等任务的能力。

公司创始人 Brett Adcock 有着丰富的创业经验，他的目标是长期影响人类未来。

此外，OpenAI 还支持了挪威的 1X Technologies，该公司正在开发家用双足人形机器人 Neo。

彭博社消息称，这家公司本轮预计共要融资5亿美元，投前估值或将达到19亿美元。微软计划投资9500万美元，OpenAI跟投500万美元。

2⃣️ 🔌 @MultiOn_AI：一个多功能AI代理：

使用GPT进行网络操作，如订票和订餐。

能自动安排Google会议和发推文。

🔗 https://www.multion.ai/

3⃣️ 🏝️ 安圭拉岛：AI热潮带来的意外收益：

通过“.ai”域名销售增长四倍。

每月约300万美元收入用于偿还债务和取消税收。 🔗 https://spectrum.ieee.org/ai-domains

4⃣️ 🛒 使用Apple Vision Pro购买Cybertruck的新体验：

展示了一种全新的线上购物体验。

使用户足不出户即可感受购物震撼。

5⃣️ 🗣️ WhisperKit：实时语音推理转录Swift软件包：

轻松部署：

仅需2行代码，就可以在应用程序中集成Whisper语音识别功能。

实时语音转录：

适用于需要快速响应的应用场景，比如实时字幕生成、会议记录或即时通讯。

流式转录应用：

支持在iPhone 、Mac上进行流式语音转录，边录音边转写，无需等待。

自定义行为实现：

由于其模块化和可扩展的设计，开发者可以根据自己的需求定制和扩展WhisperKit的功能，比如添加特定的语言模型或适应特殊的语音识别场景。

性能优化：

通过专门针对音频编码器的优化，WhisperKit能够在iPhone 12至iPhone 15等设备上实现更快的处理速度，减少了预测延迟。WhisperKit针对Apple Silicon进行了特别的性能优化，确保了在苹果设备上能够以最低的延迟实现最高的吞吐量，特别是对于实时应用。

开源模型支持：

项目提供了多个兼容模型的支持，并且允许开发者通过API下载和使用这些模型，使得部署和更新过程更加便捷。详细：

https://takeargmax.com/blog/whisperkit

6⃣️ 📱 MobileAgent：阿里巴巴的多模态AI代理：

它是一个纯视觉解决方案，不需要任何系统代码，完全通过分析图像来理解和操作手机。它能够自动完成各种任务，如：可以自己打开淘宝找帽子添加到购物车，播放音乐，自主使用导航APP，甚至还能写便签和发邮件。

应用案例：

Alibaba购物：在Alibaba上帮助用户找到帽子，并根据条件添加到购物车。 Amazon Music：在Amazon Music中搜索歌手Jay Chou或播放关于“代理”的音乐。 Chrome：搜索今日湖人队比赛结果或关于Taylor Swift的信息。 Gmail：发送空邮件或具有特定内容的邮件。 Google Maps：导航至杭州西湖或附近的加油站。 Google Play：在Play Store下载WhatsApp或Instagram。 Notes：创建新便签并记录特定信息。 Settings：开启深色模式或飞行模式。 TikTok：在TikTok上为宠物猫视频点赞或评论。 YouTube：搜索关于Stephen Curry的视频并进行评论。多应用场景：结合使用多个应用完成复杂任务。

它的特点包括：

1、依赖于纯视觉解决方案：

这意味着MobileAgent主要通过分析图像来理解和操作手机或平板电脑上的内容。它就像人眼一样，通过“看”屏幕来知道发生了什么，而不是通过读取代码或程序内部数据。

2、独立于XML和系统元数据：

在软件开发中，XML文件和系统元数据通常用来描述程序的布局和数据信息。 MobileAgent不依赖这些信息来工作，这让它能够在没有访问底层代码或数据权限的情况下操作应用，增加了它的通用性和灵活性。

3、具备多种视觉感知工具进行操作定位：

MobileAgent使用了多种技术来“理解”屏幕上显示的内容，包括文本、图标、按钮等。这样的视觉感知能力使得它能够准确地识别和操作屏幕上的各种元素。

4、无需探索和训练，即插即用：

传统的自动化软件或机器学习模型在使用前通常需要大量的数据训练或特定环境下的调试。MobileAgent设计成即插即用，意味着用户可以直接在不同的设备和应用上使用它，而无需进行复杂的设置或预训练。

工作原理：

1、视觉感知工具：

Mobile-Agent首先利用视觉感知工具准确地识别和定位应用前端界面内的视觉和文本元素。视觉感知模块：Mobile-Agent使用视觉感知模块来准确地定位屏幕上的操作。这一模块包括检测和光学字符识别（OCR）模型，负责描述屏幕上定位区域的内容并识别其中的文本。文本和图标定位：当需要点击屏幕上的特定文本时，使用OCR工具检测文本在屏幕上的位置。对于图标点击，使用图标检测工具和CLIP技术来定位图标的位置。

2、自主任务规划和执行：

基于感知到的视觉上下文，Mobile-Agent能够自主规划和分解复杂的操作任务，并逐步导航移动应用程序。操作定义：Mobile-Agent定义了8种操作，包括打开应用、点击文本、点击图标、输入文本、页面上下滚动、返回上一页、退出到桌面和停止操作。自我规划：Mobile-Agent通过迭代过程完成操作的每一步。在迭代开始前，用户需要输入指令。Mobile-Agent根据系统提示、操作历史和当前屏幕截图输出下一步操作。如果输出的操作是结束过程，则迭代停止；否则，继续新的迭代。 3、自反思：Mobile-Agent具备自我规划能力，可以根据截图、用户指令和操作历史全面规划任务，并通过自反思方法识别错误操作和不完整指令，以提高任务完成率。错误处理和自反思方法：在迭代过程中，Mobile-Agent可能遇到错误，导致无法完成指令。为了提高指令的成功率，引入了自反思方法。这种方法在两种情况下生效：当代理生成错误或无效操作时，以及当代理可能忽略复杂指令的某些要求时。代理会根据操作历史、当前屏幕截图和用户指令分析操作，确定是否已完成指令。如果没有，代理需要继续通过自我规划生成操作。

4、提示格式

观察、思考和行动：为了更好地实现上述功能，Mobile-Agent采用了提示格式，要求代理输出三个组成部分：观察、思考和行动。观察是代理对当前屏幕截图和操作历史的描述，思考代表代理基于观察和指令生成的下一步操作的考虑，行动要求代理根据思考选择一种操作和参数。

🔗 https://github.com/X-PLUG/MobileAgent 🔗 https://arxiv.org/abs/2401.16158

7⃣️ 🚶 马斯克展示擎天柱机器人的进步：

步态更趋于人类，速度提升。

展示第三代改进版本的测试。

8⃣️ 🧮 AutoMathText：200GB的数学文本数据集：

适用于数学推理和生成模型。

包含一个 200GB 的数学文本数据集

以及一个200万个数学问题和答案的集合数据集 🔗 https://huggingface.co/datasets/math-ai/AutoMathText