直达「 通往AGI之路 」飞书知识库 →
小互日报-2023 年12 月汇总
小互日报-2023 年12 月汇总
资讯|2023-12-31|最后更新: 2024-1-27
type
status
summary
date
slug
tags
category
password
icon

12月31日

🥳 Xiaohu.AI日报「12月31日」
✨✨✨✨✨✨✨✨
1⃣️
🔍 Writerbuddy AI分析了3000多种AI工具:
  • 从中选出访问量最大的50个工具,共产生超过240亿次访问量。
  • ChatGPT独占140亿流量,占60%。
  • AI行业每月增长2.363亿访问量,50个工具增长率达10.7倍。
🔗 https://x.com/xiaohuggg/status/1741352332594676143?s=20
2⃣️
🌏 AI用户的地理分布分析:
  • 美国领先,印度和东南亚国家紧随其后。
  • 中国AI用户未进前20,可能因本土工具和监管环境。
  • 欧洲合计39亿访问量,占16.21%。
🔗 https://x.com/xiaohuggg/status/1741352374491578665?s=20
3⃣️
🕺 MotionGPT发布:多模态运动语言模型:
  • 可以通过文字聊天生成逼真的人体运动。
  • 发布了演示视频。
🔗 https://x.com/xiaohuggg/status/1741334353106649558?s=20
4⃣️
🌐 多邻国解雇翻译合同工消息:
  • 因AI翻译能力,大量翻译工作被AI替代。
  • 前员工证实被解雇,剩余人员审查AI内容。
🔗 https://x.com/dotey/status/1741278404308033555?s=20
5⃣️
🎵 Radishes:分分钟复制一个网易云音乐
  • 开源无版权音乐平台
  • 支持Windows、macOS、Linux和Web。
  • 功能包括音乐搜索、下载、每日歌单推荐等。
🔗 https://x.com/xiaohuggg/status/1741305980821160026?s=20
6⃣️
🎨 SSR-Encoder:从图像中提取关键特征生成新图像:
  • 提取人物、风格、情感等特征。
  • 结合文字提示,创造新的图像。
  • 适用于视频内容生成。
🔗 https://x.com/xiaohuggg/status/1741293524488970465?s=20
7⃣️
✋ HandRefiner解决AI图像生成中手部问题:
  • 针对手部图像畸形问题。
  • 采用条件修补方法纠正。
  • 保留原图其他部分不变。
🔗 https://x.com/xiaohuggg/status/1741279083005354279?s=20
8⃣️
💰 OpenAI 2023年收入超16亿美元:
  • 10月中旬时为13亿美元,增长20%。
  • 尽管11月有领导层危机,仍保持强劲势头。
🔗 https://x.com/xiaohuggg/status/1741135218592117071?s=20

12月30日

🔔 Xiaohu.AI日报「12月30日」
✨✨✨✨✨✨✨✨
1⃣️
🌐 Movie-web:一个独特的电影搜索引擎式网站
  • 通过第三方流媒体服务获取电影和电视剧内容。
  • 提供自动保存进度和书签功能。
  • 界面简约,易于托管,支持跨设备同步。
🔗 https://movie-web.app
https://x.com/xiaohuggg/status/1741049782796476507?s=20
2⃣️
🎬 AI生成黑白视频的惊艳展示
  • 使用Midjourney V6和Runway Gen-2生成视频。
  • 配乐由Suno AI制作,无需现场拍摄。
🔗 https://x.com/xiaohuggg/status/1741066416529535339?s=20
3⃣️
🍎 Awesome Mac:全面的macOS软件集合
  • 包含多种类别的macOS软件,如开发、设计、通讯工具等。
  • 功能全面,适用于各类用户需求。
🔗 https://x.com/xiaohuggg/status/1741019897403179518?s=20
4⃣️
🎓 GPT Academic:专为学术研究打造的界面
  • 提供多种学术研究相关的编辑和交互功能。
  • 支持复杂学术内容理解、论文写作改进等。
  • 提供代码解释、程序剖析等功能。
🔗 https://x.com/xiaohuggg/status/1740932114391191673?s=20
5⃣️
🌏 韩国推出“数字游民”签证
  • 允许外籍人士远程工作,最长可达两年。
  • 签证持有者可携带家属,需满足一定的收入要求。
  • 旨在吸引高收入外籍人士,活跃当地经济。
🔗 https://x.com/xiaohuggg/status/1740920263263592863?s=20
6⃣️
📱 微软 Copilot iOS版:GPT 4可免费使用
  • 功能类似ChatGPT和DALL-E 3图像生成。
  • 提供Image Creator功能,可从文本提示创建海报。
🔗 https://x.com/xiaohuggg/status/1740908048447844392?s=20
7⃣️
🎵 Spotube:开源Spotify客户端,免费听音乐
  • 无需Spotify Premium订阅,使用Spotify数据API。
  • 支持跨平台,无广告体验,支持下载音乐。
  • 强调用户隐私保护,本地播放控制。
🔗 https://github.com/KRTirtho/spotube
🔗 https://x.com/xiaohuggg/status/1740759195044257916?s=20

12月29日

🔔 Xiaohu.AI日报「12月29日」
✨✨✨✨✨✨✨✨
1⃣️
🎤 VOICEVOX:日语文本转语音软件
  • 提供多种语音角色,适用于不同场景。
  • 可调整语音的语调、速度、音高。
  • 开源且可商用。
2⃣️
🤖 OMEME:将VR眼镜改造成伴侣机器人
  • 由北海道大学研究人员开发。
  • VR眼镜的屏幕、扬声器和控制器被改造成机器人部件。
  • 提供聊天和娱乐功能。
3⃣️
💻 Stable Diffusion WebUI:苹果MLX基础的界面
  • 提供简单的WebUI,易于使用。
  • 支持多种模型,如Stable-diffusion-2-1-base。
4⃣️
🚗 Flowpilot:用智能手机实现老旧燃油车自动驾驶
  • 开源自动驾驶辅助系统,运行于Android。
  • 通过熊猫硬件连接车辆的OBD-II端口。
5⃣️
🎥 MotionCtrl:AI视频中摄像机和物体运动控制
  • 控制相机动作,如转动、缩放。
6⃣️
👤 Spiritme AI:克隆虚拟形象的工具
  • 通过iPhone拍摄视频来捕捉外貌、动作。
7⃣️
🎮 英伟达RTX 4090D:面向中国市场的新显卡
  • 同RTX 4090价格,12999元人民币
  • 24GB GDDR6X显存,基础频率高于RTX 4090。
  • CUDA和Tensor核心数量略低于RTX 4090。 🔗 https://x.com/xiaohuggg/status/1740546965753217280?s

12月28日

🔔 Xiaohu.AI日报「12月28日」 ✨✨✨✨✨✨✨✨
1⃣️
📽️ 广告片制作对比AI视频创新:
  • 传统广告片与Pika翻拍AI视频的对比。
  • 预测AI视频领域将出现首部真正的AI电影。
🔗 https://x.com/xiaohuggg/status/1740375887613501770?s=20
2⃣️
🔬 麻省理工科学家发现新型抗生素:
  • 利用AI技术对抗耐药性金黄色葡萄球菌。
  • 首次60年来抗生素研究的重大进展。
  • 通过深度学习模型和数据集评估化合物。
🔗 https://x.com/xiaohuggg/status/1740360789742268498?s=20
3⃣️
🚗 小米电动车新动态:
  • 小米电动车外观设计比保时捷还好看。
  • 据说售价是30以内!低配版可能19.9
  • CLTC续航里程达800km,5分钟充电实现510km续航
🔗 https://x.com/xiaohuggg/status/1740313720226812162?s=20
4⃣️
🖼️ UniRef++在图片或视频中找到并标记出特定的物体:
  • 文字描述就可以在视频中识别特定物体。
  • 适用于自动图像编辑和视频内容分析。
🔗 https://x.com/xiaohuggg/status/1740309636811755941?s=20
5⃣️
🎬 Assistive Video一个新的AI生成视频的工具:
  • 通过文字提示或图片生成视频内容。
  • 用户可控制视频质量和内容一致性。
  • 体验地址:https://assistive.chat/product/video
🔗 https://x.com/xiaohuggg/status/1740212609549541884?s=20
6⃣️
⚖️ 纽约时报起诉OpenAI侵权案分析:
  • 律师解读纽约时报与OpenAI的版权争议。
  • 该案可能成为AI与版权法的转折点。
  • 纽约时报要求赔偿并销毁相关AI模型。
🔗 https://x.com/xiaohuggg/status/1740185246212239650?s=20
 

12月27日

🔔 Xiaohu.AI日报「12月27日」 ✨✨✨✨✨✨✨✨
1⃣️
🏛️ 纽约时报与普利策获奖者对微软和OpenAI的版权诉讼:
  • 纽约时报和普利策奖得主指控微软和OpenAI使用其版权内容训练AI。
  • 涉及数百万篇文章和书籍内容。
  • 背景:苹果近期购买新闻版权,可能激发了诉讼行动。
🔗 https://x.com/xiaohuggg/status/1740008017448559006?s=20
2⃣️
🔗 Markdown Convert 工具介绍:
  • 专门用于将各种表格格式转换成Markdown格式。
  • 支持Excel、CSV、JSON、SQL等格式。
🔗 https://x.com/xiaohuggg/status/1739940948178800672?s=20
3⃣️
🌌 Skybox AI 0.9版本更新:
  • 可以从文本提示或草图生成360度3D世界。
  • 使用NeRF技术,增强图像的空间深度和真实感。
  • 提供不同分辨率的3D网格下载。
🔗 https://x.com/xiaohuggg/status/1739926702158225859?s=20
4⃣️
🤖 GPT-Pilot:AI开发者伴侣特点:
  • 全功能AI程序员:编写代码、配置环境、管理任务、调试。
  • 用户仅需监督开发过程。
🔗 https://x.com/xiaohuggg/status/1739911997523992688?s=20
5⃣️
🎾 混合增强现实技术体验:
  • 结合真实和虚拟元素的网球游戏。
  • 展示未来技术的潜力。
🔗 https://x.com/xiaohuggg/status/1739830627858583808?s=20
6⃣️
💃 日本舞蹈生成APP:
  • 仅需一张图片,AI即可生成舞蹈视频。
  • 可能来源于阿里和字节的项目。
  • 视频展示有趣的舞蹈效果。
🔗 https://x.com/xiaohuggg/status/1739657763289195004?s=20

12月26日

🔔 Xiaohu.AI日报「12月26日」 ✨✨✨✨✨✨✨✨
1⃣️
📚 ComfyUI教程知识库:
  • 为学习ComfyUI提供全面资源。
  • 包含丰富的教程和指南。
https://comflowy.com/zh-CN
🔗 https://x.com/xiaohuggg/status/1739571475085193432?s=20
2⃣️
🔍 微软PromptBench工具库:
  • 专为评估大型语言模型设计。
  • 提供创建提示、进行数据集和模型加载、对抗性提示攻击等工具。
  • 支持研究人员全面分析和评估LLMs。
🔗 https://x.com/xiaohuggg/status/1739565076447891784?s=20
3⃣️
🖼️ PASD图像处理工具:
  • 开源,实现图像超分辨率和个性化风格化。
  • 可用于图像修复、风格转换和上色。
  • 适用于旧照片恢复、艺术风格创作等。
🔗 https://github.com/yangxy/PASD
🔗 https://x.com/xiaohuggg/status/1739516745982062732?s=20
4⃣️
🤖 @tsarnick开发的机器人Rob:
  • 结合了GPT-4V,通过镜子测试。
  • 包含Raspberry Pi、电池、伺服电机等。
  • 通过OpenAI API响应问题,并利用摄像头“看”周围世界。
🔗 https://x.com/xiaohuggg/status/1739495657289973823?s=20
5⃣️
💬 Danswer开源企业AI问答系统:
  • 用于从企业文档中提取可靠答案。
  • 支持GPT-4、Mixstral、Llama2等模型。
  • 集成Slack、GitHub等工具,提供跨平台搜索。
  • 自我学习,支持自主部署和多源连接。
🔗 https://danswer.ai
https://x.com/xiaohuggg/status/1739479576596844909?s=20

12月25日

🔔 Xiaohu.AI日报「12月25日」 ✨✨✨✨✨✨✨✨
1⃣️
📱扫描物体生成3D模型:
  • 使用APP扫描物体,完成3D全貌捕获。
  • 创建AR QR码,展示物体于任何地点。
  • 苹果新品官网展示中应用此技术。
🔗 https://x.com/xiaohuggg/status/1739259052448944139?s=20
2⃣️
🌐 Search2AI联网服务:
  • 为ChatGPT第三方客户端提供联网服务。
  • 自动判断用户意图,决定是否联网查询。
  • 支持Google和Bing,计划扩展更多服务和场景。
🔗 https://x.com/xiaohuggg/status/1739223239157776794?s=20
3⃣️
💇♂️HAAR:文本生成3D发型:
  • 通过文字描述生成逼真3D发型。
  • 基于3D发丝,视觉和结构上接近真实发型。
🔗 https://x.com/xiaohuggg/status/1739208666967151076?s=20
4⃣️
🎙️ Clone-Voice:声音克隆工具:
  • 基于Coqui AI TTS模型,变换不同声音。
  • 支持16种语言,包括中英日韩法。
  • 支持在线声音克隆,5-20秒录音时长。
🔗 https://x.com/xiaohuggg/status/1739178877153681846?s=20
5⃣️
🎮 AI开发的AI游戏:
  • 背景:人类与AI的冲突,玩家扮演人类战士。
  • 基于AI-Town平台,角色和对话由GPT4生成。
  • 视觉音效由Dalle-3、Midjourney和Stable Audio生成。
🔗 https://x.com/xiaohuggg/status/1739160631620816904?s=20
6⃣️
🚪 AnyDoor:图像间隔空传送:
  • 将物体或对象从一个图像传送至另一图像。
  • 在线演示已发布。
🔗 https://x.com/xiaohuggg/status/1739129039850492275?s=20
7⃣️
🎬 Fairy:视频编辑自然语言指令:
  • 由Meta GenAI开发,文字指令编辑视频。
  • 风格转换、物体角色变换等编辑功能。
  • 14秒内生成120帧512×384视频(4秒,30 FPS)。
🔗 https://x.com/xiaohuggg/status/1738881963384356883?s=20
圣诞节🎅快乐🎉

12月24日

🎄 Xiaohu.AI日报「12月24日」
✨✨✨✨✨✨✨✨
1⃣️
🧚♀️Fairy:自然语言视频编辑
  • Meta GenAI开发的Fairy项目,通过文字描述进行视频风格、物体、角色编辑。
  • 转换效果包括梵高、漫画风格等,14秒内生成120帧视频。
  • 项目地址:https://fairy-video2video.github.io
🔗 https://x.com/xiaohuggg/status/1738881963384356883?s=20
2⃣️
📱Beeper/iMessage:Matrix-iMessage桥接
  • 实现Apple iMessage与Matrix协议的桥接,支持跨平台使用。
  • 支持实时聊天,实现Matrix与iMessage之间的无缝通信。
🔗 https://x.com/xiaohuggg/status/1738801598204367007?s=20
3⃣️
🎄Suno AI圣诞特别版
  • 用户可免费生成圣诞风格音乐,仅需描述风格、氛围或心情。
  • 提供通用模式和自定义模式,自主选择歌词曲风。
🔗 https://x.com/xiaohuggg/status/1738757086006386879?s=20
4⃣️
🗨️Talk2arXiv:与论文对话
  • 将arXiv论文链接改为Talk2arXiv链接,与论文进行聊天。
  • 体验测试版,目前只支持对话,无法定位论文具体位置。
🔗 https://x.com/xiaohuggg/status/1738748270153957567?s=20
5⃣️
🍏苹果发布多模态大模型Ferret
  • Ferret能准确识别图像内容,并定位图像中元素。
  • 拥有7B和13B两版本,使用GRIT数据集增强模型能力。
  • GitHub地址:https://github.com/apple/ml-ferret
🔗 https://x.com/xiaohuggg/status/1738746944737128452?s=20
6⃣️
🌟奥特曼新年愿望清单
  • 网友列出的愿望包括AGI、GPT-5、更好的语音模式等。
  • 清单暗示除第一条外其他愿望可能实现。
🔗 https://x.com/xiaohuggg/status/1738733784252686781?s=20
🎄平安夜🎅快乐🎉

12月23日

🔔 Xiaohu.AI日报「12月23日」 ✨✨✨✨✨✨✨✨
1⃣️
🎮ROS-Face 游戏手柄:
  • 日本开发者@handaru20pF创造了能控制面部表情的游戏手柄。
  • 通过电冲击肌肉,实现各种表情。
  • 项目代码和电路图在GitHub公开。
🔗 https://github.com/maHidaka/ros_face/blob/master/README.md
🔗 https://x.com/xiaohuggg/status/1738523813695086783?s=20
2⃣️
🖼️DreamTuner 图像生成工具:
  • 由字节跳动开发,通过单张图片创造主题一致的新图像。
  • 可以将物体置入不同场景或添加元素。
  • 适合创造个性化主题图像。
🔗 https://dreamtuner-diffusion.github.io
🔗 https://x.com/xiaohuggg/status/1738511391093608762?s=20
3⃣️
🔍AI视频搜索引擎:
  • 搜索引擎允许用问题查询视频。
  • 可与视频进行互动对话,自动总结内容。
  • 已索引约17245个YouTube视频,计划扩展到TikTok。
🔗 https://avse.vercel.app
🔗 https://x.com/xiaohuggg/status/1738435580516765958?s=20
4⃣️
🏠ControlRoom3D 3D房间设计:
  • 根据布局和风格描述设计3D房间模型。
  • 自动调整房间深度和物体表面细节。
🔗 https://x.com/xiaohuggg/status/1738407819035206105?s=20
5⃣️
🍏苹果公司AI新闻采集计划:
  • 与多家出版商合作,采集新闻训练AI系统。
  • 计划在iOS 18推出“AppleGPT”聊天机器人。
  • 拟议交易额至少5000万美元。
🔗 https://x.com/xiaohuggg/status/1738394950277144942?s=20

12月22日

🔔 Xiaohu.AI日报「12月22日」 ✨✨✨✨✨✨✨✨
1⃣️
🔥 OpenSaaS - 免费开源的SaaS模板:
  • 提供预配置的功能丰富平台,便于构建应用。
  • 包含用户认证、内置博客、支付系统等。
  • 特别适合小型团队和个人开发者。
🔗 http://opensaas.sh
🔗 https://x.com/xiaohuggg/status/1738129354243383719?s=20
2⃣️
🍲 TasteTime Machine - 味道时光机:
  • 宮下芳明教授开发,模拟不同时间段食物味道。
  • 可使新鲜食物味道变成放置数日的味道,反之亦然。
  • 例:即刻享受放置一晚的咖喱浓郁味道。
🔗 https://x.com/xiaohuggg/status/1738113688794763739?s=20
3⃣️
📱 AppAgent - 人类操作模拟AI:
  • 自主学习模仿人类手势,执行多种手机任务。
  • 由腾讯和德州大学达拉斯分校研究团队开发。
🔗 https://appagent-official.github.io
🔗 https://x.com/xiaohuggg/status/1738083914193965528?s=20
4⃣️
🗣️ DREAM-Talk - 照片说话项目:
  • 字节跳动开发,单张图片生成说话面部动画。
  • 支持多种情感表达和多语言。
🔗 https://magic-research.github.io/dream-talk/
🔗 https://x.com/xiaohuggg/status/1738061130034266560?s=20
5⃣️
🖼️ Osprey - 精确到像素级别的图像理解:
  • 专注于图像特定区域的细致分析。
  • 在医学图像分析中特别有用。
  • 结合像素级掩码和语言指令,提供细粒度视觉理解。
🔗 https://x.com/xiaohuggg/status/1738046153877508458?s=20
6⃣️
🎨 StreamDiffusion - 实时画图开源解决方案:
  • 以超过100fps速度实现实时图像生成。
  • 适用于实时图像生成、文本到图像转换等。
  • 可在极短时间内生成大量图像。
🔗 https://x.com/xiaohuggg/status/1738028693845655835?s=20
7⃣️
🔌 ChatGPT插件将被废弃:
  • OpenAI引导开发者迁移到GPTs。
🔗 https://x.com/xiaohuggg/status/1738017141704786073?s=20
8⃣️
🎬 Runway新功能 - Gen 2视频合成:
  • 合成多个视频到一个场景,创造丰富内容。
  • 类似Photoshop图层功能,提供自定义运动和风格化。
  • 功能包括视频合成、背景移除和层叠视频。
🔗 https://x.com/xiaohuggg/status/1738003949465321881?s=20

12月21日

🔥 2023 年最受欢迎的 Chrome 浏览器扩展
🚀 Midjourney V6上线
🌍 Text-to-CAD :通过文本提示生成 CAD 文件
🔬 Coscientist: 4分钟内复现诺奖研究成果!
💻 PowerInfer:让普通电脑也能跑大语言模型
📥 XHS-Downloader:小红书采集器
📜 OpenAI发布新治理框架
https://mp.weixin.qq.com/s/i_yNZRAzxaHGvqRWpPuzXA

12月20日

🔔 Xiaohu.AI日报「12月20日」 ✨✨✨✨✨✨✨✨
1⃣️
🌐OpenAI发布AI大模型风险防范框架文件:
  • OpenAI董事会有权决定发布新AI模型。
  • 框架文件提出防范AI大模型灾难性风险的路线图。
  • 董事会可推翻领导团队关于AI模型发布的决策。
🔗 https://openai.com/safety/preparedness
3⃣️
🤖Google的VideoPoet视频模型:
  • 根据文本描述生成视频。
  • 多模态学习能力,包括音频和视频处理代码编写。
  • 视频风格化、修复、扩展以及音频生成功能。
🔗 https://x.com/xiaohuggg/status/1737371348467618039?s=20
4⃣️
💧HyFluid项目分析流体运动:
  • 从视频中分析水、烟等流体的移动状态。
  • 能预测流体未来的运动趋势。
  • 适用于复杂、难以捉摸的流体动态。
🔗 https://x.com/xiaohuggg/status/1737321380511891550?s=20
5⃣️
🔊Runway发布文字转语音功能:
  • 用于生成视频的画外音和对话。
  • 支持多种语言的细腻真实人声效果。
🔗 https://x.com/xiaohuggg/status/1737124514969075791?s=20
6⃣️
🎵微软与Suno合作引入AI音乐创作到Copilot:
  • Suno可以从一句话生成完整的歌曲。
  • 包括歌词、乐器伴奏和歌声。
  • 通过Microsoft Edge体验Suno的音乐创作。
🔗 https://x.com/xiaohuggg/status/1737305135670546861?s=20
7⃣️
🎤Amphion开源工具包:
  • 提供语音、声音和歌唱功能。
  • 支持声音转换、歌声合成、文本到音频等。
  • HuggingFace上的演示可用。
🔗 https://huggingface.co/amphion
🔗 https://x.com/xiaohuggg/status/1737299090848018565?s=20

12月19日

🔔 Xiaohu.AI日报「12月19日」 ✨✨✨✨✨✨✨✨
1⃣️
🔊 Runway 文字转语音功能:
  • 正式发布,用于生成视频的画外音和对话。
  • 支持多种语言,提供细腻真实的人声效果。
🔗 https://x.com/xiaohuggg/status/1737124514969075791?s=20
2⃣️
🔬 LK99超导材料研究进展:
  • 中南大学和华南理工研究团队提出超导性证据。
  • 在铜替代铅磷灰石材料中发现不寻常行为,温度约-23°C时微波吸收变化。
  • 可能是LK99型超导体的首次实验支持。
🔗 https://x.com/xiaohuggg/status/1737095765376504197?s=20
3⃣️
🛡️ MIST反AI工具:
  • 旨在保护艺术作品免受AI模仿。
  • 为作品加特殊水印,对抗AI复制风格和内容。
  • 对抗多种AI-for-Art应用,包括LoRA、SDEdit等。
🔗 https://x.com/xiaohuggg/status/1737088730706718817?s=20
4⃣️
🤖 部署Gemini机器人指南:
  • 英文效果良好,中文回答存在问题。
  • 简易3分钟部署流程介绍。
  • 包括使用Vercel部署和Gemini API key申请。
🔗 https://x.com/xiaohuggg/status/1737063505805955226?s=20
5⃣️
🌌 NASA深空激光通信技术:
  • 成功传输高清视频,距离地球3100万公里。
  • 演示飞行激光收发器,最大比特率达267 Mbps。
  • 提供对未来任务的支持,如火星探险。
🔗 https://go.nasa.gov/47XDYom
🔗 https://x.com/xiaohuggg/status/1737040743351603397?s=20
6⃣️
🎭 VOODOO 3D技术:
  • 精确复制人的表情和动作到3D模型。
  • 实时过程,通过摄像头输入同步反应。
  • 3D变脸术,提高虚拟人物模型的真实感。
🔗 https://x.com/xiaohuggg/status/1736958842595082744?s=20
7⃣️
🎥 toolkit视频工具包:
  • 功能包括转换视频/gif为mp4,制作gif,提取音频等。
  • 方便快捷的视频处理工具。
🔗 https://replicate.com/fofr/toolkit
🔗 https://x.com/xiaohuggg/status/1736946514520604958?s=20
8⃣️
💔 Adobe与Figma交易失败:
  • 200亿美金收购交易告吹,需支付10亿美金分手费。
  • Adobe开发名为“Ligma”的新产品,类似Figma。
  • 设计界避免每年支付400美金给Adobe。
🔗 https://x.com/xiaohuggg/status/1736931976580649467?s=20

12月18日

🔔 Xiaohu.AI日报「12月18日」 ✨✨✨✨✨✨✨✨
1⃣️
🖼️ ComfyUI Portrait Master 肖像大师 简体中文版:
  • 肖像大师2.0版本发布,提供详细的参数设置。
  • 可视化的滑块操作,方便使用。
  • 作者ZHO
🔗 https://github.com/ZHO-ZHO-ZHO/comfyui-portrait-master-zh-cn
🔗 https://x.com/xiaohuggg/status/1736710794589675763?s=20
2⃣️
🎥 Gaussian-SLAM 3D场景重建技术:
  • 从视频流中重建逼真的3D场景。
  • 分析环境布局和物体位置,创建可多角度观察的3D模型。
  • 实时渲染过程。
🔗 https://x.com/xiaohuggg/status/1736674788679311709?s=20
3⃣️
🗣️ DreamTalk 头像说话框架:
  • 由清华大学、阿里巴巴和华中科大共同开发。
  • 根据音频使人物头像说话或唱歌,嘴唇同步,模仿表情。
  • 支持多种语言,适用于多种场景。
🔗 https://x.com/xiaohuggg/status/1736627340623692177?s=20
4⃣️
📱 Phone上运行Mistral 7B:
  • 在手机上运行Mistral 7B,响应迅速。
  • 支持多端部署,兼容多种系统。
  • 提供应用下载和多系统支持的部署方案。
🔗iOS版本 https://apps.apple.com/gb/app/mlc-chat/id6448482937
🔗 https://github.com/mlc-ai/mlc-llm
🔗 https://x.com/xiaohuggg/status/1736617372298170477?s=20
5⃣️
🏀 HomeCourt AR篮球训练应用:
  • NBA官方合作伙伴,利用AR技术提高篮球技能。
  • 实时捕捉运动,智能分析表现和数据。
  • 提供互动训练和挑战游戏。
🔗 https://x.com/xiaohuggg/status/1736597467934958027?s=20
6⃣️
🕶️ Meta 雷朋智能眼镜潮流:
  • 在TikTok上掀起潮流。
  • 第一视角直播,内置AI助手和高性能摄像头。
  • 已在多国开售,售价299美金。
🔗 https://x.com/xiaohuggg/status/1736588857087574481?s=20

12月17日

🔔 Xiaohu.AI日报「12月17日」 ✨✨✨✨✨✨✨✨
1⃣️
🌟PixelLLM - Google的新视觉语言模型:
  • 提供对图片内容的详细描述及每个词汇的具体位置。
  • 能识别图片中的物体,并精确指出其位置。
  • 特别适用于图像和文字紧密结合的任务。
🔗 https://jerryxu.net/PixelLLM/
🔗 https://arxiv.org/abs/2312.09237
2⃣️
🤖EmbedAI - 定制你自己的ChatGPT:
  • 支持使用各种数据源训练ChatGPT,包括文件、网站、Notion文档和YouTube。
  • 应用范围广泛,如智能客服、个性化学习助手等。
  • 无代码平台,适合非编程背景用户。
🔗 https://thesamur.ai
🔗 https://x.com/xiaohuggg/status/1736336780876742873?s=20

12月16日

🔔 Xiaohu.AI日报「12月16日」 ✨✨✨✨✨✨✨✨
1⃣️
🎨 DomoAI:将照片和视频动漫化:
  • 可上传照片或视频,选择动漫风格进行转换。
  • 功能包括文字到图片、图片到视频、视频风格转换。
  • 提供了详细的加入和使用指南。
🔗 https://x.com/xiaohuggg/status/1736020885474267317?s=20
2⃣️
🔍 FunSearch:大语言模型驱动的解决方案生成器:
  • 结合大语言模型和评估器,迭代改进解决方案。
  • 在生成解决方案的过程中不断融入新知识。
🔗 https://x.com/xiaohuggg/status/1735957680739823730?s=20
3⃣️
🌌 SceneWiz3D:根据文字合成3D场景:
  • 通过文本描述自动创建高保真3D场景。
  • 支持场景中物体的动态变化,如添加或移除。
🔗 https://x.com/xiaohuggg/status/1735924490704724436?s=20
4⃣️
🚫 字节跳动被OpenAI封杀事件:
  • 字节跳动因违反OpenAI服务条款被封杀。
  • 使用OpenAI数据训练自身竞争模型。
  • Project Seed项目大量依赖OpenAI API。
🔗 https://x.com/xiaohuggg/status/1735876029552718213?s=20
5⃣️
🤖 NeurIPS 2023:人工智能和机器学习的学术会议:
  • 介绍了NeurIPS这一重要的AI和机器学习年度会议。
  • 今年的会议特色:将论文直接打印挂起作为展位。
🔗 https://x.com/xiaohuggg/status/1735685417528344745?s=20
 

12月15日

🔔 Xiaohu.AI日报「12月14日」 ✨✨✨✨✨✨✨✨
1⃣️
🎨 实时草图转换成3D模型:
  • @CSM_ai 推出了实时草图转换成3D模型的功能。
  • 用户可以从简单的涂鸦直接生成3D模型,并导出到3D软件。
  • 免费体验地址:https://3d.csm.ai/canvas
🔗 https://x.com/xiaohuggg/status/1735655175564743148?s=20
2⃣️
💻 M3 Mac 成功安装 dolphin-2.5-mixtral-8x7:
  • 体验速度快,支持中文输入输出,但是不如英文。
🔗 https://x.com/xiaohuggg/status/1735639389697683644?s=20
3⃣️
🌐 Heygen 注册解散国内主体:
  • 反映了出海AI企业的去中国化趋势。
🔗 https://x.com/xiaohuggg/status/1735643417965949248?s=20
4⃣️
👀 Gemini 视觉能力演示:
  • 通过上传酒吧桌子和菜单的照片,计算饮料总账单。
  • 基于Gemini的API,需要API key申请。
  • 体验地址:https://huggingface.co/spaces/Roboflow/Gemini
🔗 https://x.com/xiaohuggg/status/1735614516250255622?s=20
5⃣️
🎵 字节跳动推出音乐生成模型StemGen:
  • 专注于理解并生成基于给定音乐上下文的新音乐。
🔗 https://x.com/xiaohuggg/status/1735608031122235768?s=20
6⃣️
🧠 DeepMind的新技术FunSearch:
  • 结合大语言模型和自动检查程序,解决问题的同时确保答案正确。
  • 展示解决方案及其获取过程。
🔗 https://x.com/xiaohuggg/status/1735553242048958615?s=20
7⃣️
🎶 Google AI音乐生成模型MusicFX:
  • 通过文字提示生成音乐,最长可达70秒。
  • 简单操作,可选择音乐风格、元素、乐器等。
🔗 https://x.com/xiaohuggg/status/1735506583432634544?s=20
8⃣️
🤖 OpenAI超级对齐项目最新研究:
  • 探索使用能力较弱的AI模型指导强大AI模型。
  • 如使用GPT-2辅助训练GPT-4。
🔗 https://x.com/xiaohuggg/status/1735496740584014017?s=20

12月14日

🔔 Xiaohu.AI日报「12月14日」 ✨✨✨✨✨✨✨✨
1⃣️
💼 AI做副业资源整理:
  • GitHub合集汇总了AI创业或副业的相关资料。
  • 推文链接分享更多相关信息。
🔗 https://github.com/bleedline/aimoneyhunter
🔗 https://x.com/xiaohuggg/status/1735294797362212907?s=20
2⃣️
🤖 OpenAI GPT4.5 泄露:
  • 三个不同版本亮相:GPT-4.5、GPT-4.5-64k、GPT-4.5-audio-and-speech。
  • 重点在于多模态、复杂逻辑和推理。
🔗 https://x.com/xiaohuggg/status/1735278770041561455?s=20
3⃣️
📚 机器学习研究视频资源:
  • 提供了深度分析不同AI领域论文的精读视频。
  • 涵盖了计算机视觉、自然语言处理等众多子领域。
🔗 https://x.com/xiaohuggg/status/1735272664883991012?s=20
4⃣️
🧠 读心术研究亮相:
  • 悉尼科技大学呈现了能将脑电波转化为文字的技术。
  • 技术既无侵入性又配备了先进脑-计算机接口。
🔗 https://x.com/xiaohuggg/status/1735240744057901542?s=20
5⃣️
🖼️ 从文本生成图像技术:Imagen 2:
  • 更提升了真实图像生成、与描述文字的契合度。
  • 新能力还包括图片修改和内容创造。
🔗 https://x.com/xiaohuggg/status/1735149171781533870?s=20
6⃣️
🌐 谷歌实时三维渲染技术:SMERF:
  • 可实时生成精细三维场景。
  • 用途广泛,比如说不同场景下的三维导览体验。
  • 在手机、笔记本上均提供流畅体验。
🔗 https://smerf-3d.github.io
🔗 https://x.com/xiaohuggg/status/1735213721092587685?s=20
7⃣️
🌟 ChatGPT入选Nature年度科学人物:
  • 作为AI非人类,创下榜单先河。
  • 被誉为开创和推动当代人类和AI的协作先河。
🔗 https://x.com/xiaohuggg/status/1735204522061148426?s=20
8⃣️
🎨 GPT 4和Midjourney打破设计壁垒:
  • 利用公式和提示词帮助生成个性化背景图。
  • 操作亲民简便,小白也能轻松掌握。
🔗 https://x.com/xiaohuggg/status/1735184007569330248?s=20
9⃣️
👗 阿里巴巴研发虚拟试衣技术:
  • “Outfit Anyone”用以实现各种衣着和体型的真实虚拟试穿。
  • 技术创新还能大幅纤体重塑。
🔗 https://x.com/xiaohuggg/status/1735170872774963222?s=20
🔟
🚗 新型视觉-语言驾驶仿真技术:Dolphins:
  • 可了解并处理各种行车环境和反馈。
  • 人工智能和自动驾驶融合之作。
🔗 https://x.com/xiaohuggg/status/1735143546867569089?s=20
1⃣️1⃣️
📸 AI生成个人变脸娱乐应用:
  • 使用实时成图,把人物“变”成任何想象形象。
  • 在个人电脑端也能轻松体验。
🔗 http://fal.ai/camera
🔗 https://x.com/xiaohuggg/status/1735129903937560615?s=20
1⃣️2⃣️
💻 ChatGPT Plus版本重磅归来:
  • 获批大量GPU,性能大幅增强。
  • 显示了目前AI技术面临算力挑战。
🔗 https://x.com/xiaohuggg/status/1735126281552044403?s=20
1⃣️3⃣️
🌐 Google宣布Gemini Pro面向开发者:
  • 提供语言处理、定制化认知技能。
  • 免费使用,拓宽了AI创业大门。
🔗 https://x.com/xiaohuggg/status/1734958068595831011?s=20

12月13日

🔔 Xiaohu.AI日报「12月13日」 ✨✨✨✨✨✨✨✨
1⃣️
🖼️ Krea.AI全面对外开放:
  • 即时生成个性化图片
  • 功能强化图像放大与增强
2⃣️
🤖 CopilotKit关键功能:
  • 适用于基于React的Web应用集成聊天机器人
3⃣️
🧠 微软Medprompt+策略升级:
  • 提高GPT-4 MMLU测试性能至90.10%
  • 针对语言处理精细调校与性能改进
4⃣️
🎨 Shader App创作功能:
  • 个性化即时AI创造AR图形
  • 无代码直观易用
5⃣️
🌟 Mixtral-8x7b 已经成为排名第一的开源模型:
  • 用户打分推动排名
6⃣️
💡 微软Phi-2亮点:
  • 2.7B参数,紧凑而强大,高效能参数革命
7⃣️
🤖 特斯拉Optimus Gen2亮点:
  • 功能和灵活度重大迭代
8⃣️
🎬 Upscale-A-Video亮点:
  • 南洋理工S-Lab开创视频清晰度与质感提升
  • 具备还原与智能修饰特性
9⃣️
🖼️ #Midjourney Alpha更新:
  • 支持生成图片的宽高比例选择了
  • 最近MJ的进度很缓慢啊
🔟
📺 Chanel 1全AI电视新闻节目:
  • 全AI打造的创新内容
 

12月12日

🔔 Xiaohu.AI日报「12月12日」 ✨✨✨✨✨✨✨✨
1⃣️
🤖 Lobe Chat 介绍:
  • 开源聊天机器人框架,界面漂亮。
  • 支持TTS、GPT 4V多模态交互和插件系统。
  • 一键部署,快速且无需复杂配置。
🔗 https://chat-preview.lobehub.com/welcome
  • 🔗 https://x.com/xiaohuggg/status/1734562244422504844?s=20
2️⃣
🌐 Alter3 人形机器人:
  • 由东京大学开发,由GPT 4驱动。
  • 可以自主进行各种人类动作,如自拍姿势。
  • 通过口头反馈调整姿势,表达情感,如尴尬和快乐。
  • 程序代码转换:将动作语言描述转为机器人执行代码。
🔗 https://x.com/xiaohuggg/status/1734492844545683636?s=20
3⃣️
📹 创意视频生成:
  • 通过人脸照片和文字描述生成跳舞视频。
  • 同一脸孔,不同场景和服装。
🔗 https://x.com/xiaohuggg/status/1734452696290414674?s=20
4⃣️
👁️ 眼睛“会说话”研究:
  • 杜克大学研究发现眼睛运动时耳朵产生声音。
  • 通过声音判断眼睛观察方向。
🔗 https://x.com/xiaohuggg/status/1734449213168353715?s=20
5️⃣
🌍 Runway的通用世界模型(GWM):
  • 旨在创建理解和模拟现实世界情况的AI系统。
  • 正在寻找对此研究感兴趣的人才。
🔗 https://research.runwayml.com/introducing-general-world-models
🔗 https://x.com/xiaohuggg/status/1734236818772758689?s=20
6⃣️
🚶♂️ Digital Life Project:
  • 通过AI和动作合成技术模拟自主3D角色。
  • 角色能进行社交互动和身体动作表达。
🔗 https://x.com/xiaohuggg/status/1734425980968861984?s=20
7⃣️
🔍 3DiffTection 3D 物体检测:
  • 单张图片中的3D物体检测和空间理解。
  • 即使物体被遮挡或位置不常见也能识别。
  • 英伟达多伦多人工智能实验室联合开发。
🔗 https://x.com/xiaohuggg/status/1734409880205992322?s=20
8⃣️
💡 GPT-4-turbo 有趣发现:
  • 使用时若系统日期设为十二月,任务执行更快。
  • 网友调侃模型“偷懒”。
🔗 https://x.com/xiaohuggg/status/1734316369863393667?s=20

12月11日

🔔 Xiaohu.AI日报「12月11日」
✨✨✨✨✨✨✨✨
1⃣️
🌌 虚拟场景中的物体移动:
  • 物体按特定轨迹在虚拟场景中移动。
🔗 https://x.com/xiaohuggg/status/1734170307697721740?s=20
2⃣️
🧠 Mixtral AI的MoE 8x7B:
  • 32k上下文,支持5种语言。
  • 性能超越Llama 2系列和GPT3.5。
  • 在代码生成和MT-Bench上表现优异。
🔗 https://x.com/xiaohuggg/status/1734139143259861185?s=20
3⃣️
💃 阿里DreaMoving项目:
  • 生成特定身份在任意场景下跳舞的视频。
  • 基于脸部照片或文字提示。
  • 高质量舞蹈视频生成,基于扩散模型。
🔗 https://x.com/xiaohuggg/status/1734105617982456270?s=20
4⃣️
📓 Google NotebookLM新动态:
  • 开放访问,支持检索增强生成。
  • 支持上传PDF、调用Google Drive文件。
  • 中文问答能力有限。
🔗 https://notebooklm.google.com
  • https://x.com/xiaohuggg/status/1734063806090002616?s=20
5⃣️
🧠 从大脑活动重建图像:
  • 准确率高达75%。
  • 不仅限于被试者实际看到的图像。
  • 日本国立量子科学研究所的研究。
🔗 https://x.com/xiaohuggg/status/1734050473894916202?s=20
6⃣️
🗨️ AnythingLLM的私人ChatGPT能力:
  • 将各种文档转换成LLM可引用格式。
  • 支持多用户使用,可设权限。
  • 兼容多种LLM和数据库。
🔗 https://x.com/xiaohuggg/status/1734037408239571336?s=20
7⃣️
🌐 3D高斯泼溅技术进展:
  • 自2023年7月以来发展迅速。
  • 汇集了相关工具、资源和研究成果。
🔗 https://x.com/xiaohuggg/status/1734028007323701349?s=20

12月10日

1⃣️
🚗 理想汽车发布Mind GPT多模态大模型:
  • 完美融合汽车与AI,为家庭成员提供最佳体验。
  • 在C-EVAL和CMMLU中文大语言模型评测榜单中双双夺冠。
🔗 https://x.com/xiaohuggg/status/1733830275254415844?s=20
2⃣️
🌍 WonderJourney:斯坦福大学和谷歌合作项目:
  • 根据文本或图片生成3D连续画面。
  • 形成虚拟“奇妙旅程”场景。
🔗 https://x.com/xiaohuggg/status/1733779657722622449?s=20
3⃣️
👀 谷歌瞪眼 SDXL 微调:
  • 为任何物体添加大眼睛效果。
🔗 https://replicate.com/fofr/sdxl-googly-eyes
4⃣️
🌐 Mistral AI发布MoE 8x7B模型:
  • 被称为缩小版GPT-4,由8个70亿参数的“专家”组成。
  • 在线体验入口:https://app.fireworks.ai/models/fireworks/mixtral-8x7b-fw-chat
🔗 https://x.com/xiaohuggg/status/1733694954260901907?s=20
非常开源附种子链接(87GB)
5⃣️
🗣️ Deepgram Aura:实时语音人工智能客服
  • 超快速文本转语音,人类般的声音调整。
  • 正在等待名单阶段,即将发布。
🔗 https://x.com/xiaohuggg/status/1733684125994033558?s=20
6⃣️
🔒 欧盟通过人工智能监管法案:
  • 对AI应用进行风险分类,特别是高风险应用。
  • 限制了企业抓取面部数据,对违规企业严厉处罚。
  • 对开源模型提供广泛豁免。
🔗 https://x.com/xiaohuggg/status/1733678222775321058?s=20

12月9日

🔔 Xiaohu.AI日报「12月9日」 ✨✨✨✨✨✨✨✨
1⃣️
📰 OpenAI即将发布GPT-4.5和GPTs商店:
  • 预计下周或月底前发布GPT-4.5。
  • 由于Google Gemini的竞争压力,OpenAI可能提前发布GPTs商店。
  • 消息源不确定,但可能在圣诞节前。
🔗 https://x.com/xiaohuggg/status/1733505502150381931?s=20
2⃣️
🌈 Material Palette:真实图片转PBR材料工具:
  • 从单张图片提取多种建筑PBR材料(如木头、金属等)。
  • 分析照片中的材料,并提取特性(颜色、光泽、粗糙度)。
  • 对建筑装修和三维场景制作非常有用。
🔗 https://x.com/xiaohuggg/status/1733417404099887532?s=20
3⃣️
🎨 Wigglypaint:具有动感效果的绘画工具:
  • 特色是“多汁”和“摇晃”的绘画效果。
  • 使绘制线条和图形看起来仿佛在屏幕上轻微摇晃。
  • 支持导出为GIF动图,配有动感绘画声音。
🔗 https://x.com/xiaohuggg/status/1733408725522899316?s=20
4⃣️
🚫 《时代》杂志:AI“脱衣”应用迅速流行:
  • 9月访问这类脱衣网站的人数达2400万。
  • 广告链接数量在社交媒体上增加了2400%以上。
  • 这些AI技术易于获取,用于制作非自愿色情内容。
🔗 https://x.com/xiaohuggg/status/1733400042298540202?s=20
5⃣️
🌐 Wikimedia Wikisource 数据集现已发布:
  • 来自Wikimedia Wikisource的最新数据转储。
  • 涵盖73种不同的语言。
  • 数据以Parquet格式提供,可免费使用。
  • 有助于增强语言模型的理解和生成能力。
🔗 https://x.com/xiaohuggg/status/1733349917501141390?s=20
6⃣️
🤖 Google Gemini最新演示分析:
  • 测试Gemini对Emoji Kitchen创建的非常规Emoji图像的理解。
  • Emoji Kitchen允许组合不同表情符号创建新表情。
🔗 https://x.com/xiaohuggg/status/1733336646509289865?s=20
7⃣️
🔍 DemoFusion:超高分辨率图像生成工具:
  • 提升SDXL图像生成的分辨率至4倍、16倍或更高。
  • 改善图片清晰度和小细节(如纹理和边缘)。
  • 生成更自然和逼真的图像。
🔗 https://x.com/xiaohuggg/status/1733152544208327089?s=20

12月8日

🔔 Xiaohu.AI日报「12月8日」 ✨✨✨✨✨✨✨✨
1⃣️
📰 Google对Gemini AI演示视频的修饰:
  • Google承认剪辑了Gemini演示视频,以增强展示效果。
  • AI实际未响应声音或视频,仅使用静态图像帧和文本提示。
  • 演示中的AI识别,比如橡皮鸭的材质识别,是基于文本提示而非实时分析。
🔗 https://x.com/xiaohuggg/status/1733130290191905266?s=20
2⃣️
🤖 OpenAI关于GPT-4变懒的声明:
  • OpenAI正在积极研究以解决GPT-4变懒得问题。
  • 自11月11日以来,GPT-4未有更新,反映出模型行为的不可预测性。
🔗 https://x.com/xiaohuggg/status/1733055007833092357?s=20
3⃣️
🤖 NewsNerd HackerBot,Hacker News的自动化抓取工具:
  • 可按关键词筛选新闻,针对特定主题提供定制内容。
  • 开源软件,可在本地电脑上运行。
  • 未来将包含新闻评论和文章内容分析。
🔗 https://x.com/xiaohuggg/status/1732990584619778077?s=20
4⃣️
🖼️ LooseControl:创新的图像生成框架:
  • 考虑物体空间关系,通过描述创建复杂场景。
  • 提供语义编辑和场景适应性,如光照变化应对。
  • 适用于复杂场景设计和智能图像修改。
🔗 https://x.com/xiaohuggg/status/1732981317560881423?s=20
5⃣️
📸 ReconFusion:用最少3张照片重建3D场景:
  • 相比传统技术,大幅减少所需照片数量。
  • 生成逼真几何形状和纹理,提升模型真实感。
  • 利用扩散先验优化视角合成。
  • 显著提升少视角3D重建性能,适用于复杂真实世界场景。
🔗 https://x.com/xiaohuggg/status/1732969487157317909?s=20
6⃣️
🧠 人类与AI的可控性比较:
  • 强调人类因情感、个人利益和道德因素而变得不可预测。
  • 提出AI相对于人类的可控性优势。
🔗 https://x.com/xiaohuggg/status/1732967294895288347?s=20

12月7日

🔔 Xiaohu.AI日报「12月7日」
✨✨✨✨✨✨✨✨
1⃣️
🎮 Demeter:混合现实游戏:
  • 将家庭环境转变为游戏场景。
  • 支持攀爬、跳跃、飞行和奔跑等动作。
  • 提供单人游戏模式,兼容多个Meta Quest平台。
🔗 https://x.com/xiaohuggg/status/1732749893641666841?s=20
2⃣️
🐦 Sound ID:鸟叫声识别应用:
  • 能够识别北美458种鸟类的叫声。
  • 可在无网络环境下运行。
  • 提供全球鸟类照片、声音、地图等信息。
🔗 https://x.com/xiaohuggg/status/1732731878946570566?s=20
3⃣️
🤖 Neum AI:RAG解决方案框架:
  • 高效管理和同步向量嵌入。
  • 高吞吐量、并行化优化、实时数据同步。
  • 提供定制化数据预处理和统一的数据管理。
🔗 https://x.com/xiaohuggg/status/1732707212743811420?s=20
5⃣️
🌐 AMD Instinct MI300X & MI300A AI芯片:
  • 内存和带宽优于Nvidia GPU。
  • 在AI推理和HPC工作负载中表现卓越。
  • 显著提高计算性能。
🔗 https://x.com/xiaohuggg/status/1732613061104882087?s=20
6⃣️
👨💻 Pika 1.0案例集锦:
  • 展示了Pika 1.0的强大应用实例。
  • 用户友好,易于上手。
  • 提供了丰富的实用案例。
🔗 https://x.com/xiaohuggg/status/1732593247191798248?s=20
7⃣️
🔥 Gemini AI & Google TPU v5p:
  • Gemini AI在Google TPU AI加速器上训练。
  • Cloud TPU v5p提供超强性能和速度。
  • 加速大型语言模型的训练。
🔗 https://x.com/xiaohuggg/status/1732589389329682509?s=20
8⃣️
🌍 Google Gemini AI优化版本:
  • 包括Ultra、Pro和Nano三个版本。
  • Pro版本已部署在Bard,支持英文。
  • Nano版本适用于移动设备,如Google Pixel 8 Pro。
🔗 https://x.com/xiaohuggg/status/1732570170105938284?s=20
9️⃣
🧩 Gemini AI能力介绍视频解说:
  • 详细介绍其在逻辑解决、图像分析等方面的能力。
  • Gemini即将在Google AI Studio公开测试。
🔗 https://x.com/xiaohuggg/status/1732558895556796577?s=20

12月6日

🔔 Xiaohu.AI日报「12月6日」
✨✨✨✨✨✨✨✨
1⃣️
🤖 Google计划发布AI聊天机器人Gemini:
  • Gemini被视为GPT 4的强劲竞争者。
  • 据悉,Google将在本周发布。
  • 预计在2024年正式公布。
🔗 https://x.com/xiaohuggg/status/1732342321117839744?s=20
2⃣️
🍎 苹果推出针对Apple芯片的MLX机器学习框架:
  • API设计与NumPy和PyTorch相似。
  • 易于在苹果电脑上构建和训练机器学习模型。
  • 演示展示了在M2 Ultra上运行的Llama v1 7B模型。
🔗 https://github.com/ml-explore/mlx
🔗 https://x.com/xiaohuggg/status/1732302746886471820?s=20
3⃣️
💃 字节跳动pk阿里动作生成视频项目:
  • 阿里未发布代码和演示,字节随即发布类似项目。
  • 项目包括基于扩散模型的MagicAnimate和Vid2DensePose。
  • 生成的DensePose数据提高了动画质量和一致性。
🔗 https://x.com/xiaohuggg/status/1732278818847777042?s=20
4⃣️
🌌 Generative Powers of Ten展示多尺度图像生成技术:
  • 无限缩放技术,清晰度高。
  • 根据文本描述生成不同尺度的连贯图像。
  • 覆盖从宇宙到细胞级别的景象。
🔗 https://x.com/xiaohuggg/status/1732247057237500130?s=20
5⃣️
🧠 DeepMind开发出可向人类学习的AI:
  • 在3D模拟环境中,AI智能体通过观察模仿人类行为。
  • 研究成果发表在Nature。
  • 无需直接从人类获取数据。
🔗 https://x.com/xiaohuggg/status/1732235284555927967?s=20
6⃣️
🎨 将DALL·E 3集成到草图软件tldraw:
  • 使用主Prompt和链条控制图像生成。
  • 通过输入关键词生成图片。
  • 多链条合并,增强图片一致性。
🔗 https://x.com/xiaohuggg/status/1732224902302945612?s=20
7⃣️
🌐 《人工智能是伟大的平衡器》文章分析了ChatGPT对工作表现的影响
  • 技术变革导致生产资料重新分配,少数人控制大多数资源。
  • 探讨AI统治人类的可能性。
🔗 https://x.com/xiaohuggg/status/1732208782330179981?s=20

12月5日

🔔 Xiaohu.AI日报「12月5日」
✨✨✨✨✨✨✨✨
1⃣️
🗣️ VividTalk:让照片说话的技术
  • 单张照片和一段音频可生成看似真实的说话视频。
  • 支持多种语言和风格,如真实和卡通风格。
  • 合作开发:南京大学、阿里巴巴、字节跳动和南开大学。
🔗 https://x.com/xiaohuggg/status/1732026172509421697?s=20
2⃣️
👤 HeyGen的Avatar2.0:即时虚拟分身
  • 5分钟内用手机创建个人虚拟分身。
  • 多语言支持和口型同步。
  • 免费提供服务。
🔗 https://x.com/xiaohuggg/status/1732014004950974917?s=20
3⃣️
💃 MagicAnimate:基于扩散模型的动画框架
  • 将静态图片转换为动作视频。
  • 结合文本生成多人动画。
  • 旨在增强动画的时间一致性和真实感。
🔗 https://x.com/xiaohuggg/status/1731868943340707855?s=20
4⃣️
🖥️ ComfyUI + SD + AnimateDiff效果演示
  • 制作方法即将公布。
  • 作者 @DreamStarter_1 预告即将分享细节。
🔗 https://x.com/xiaohuggg/status/1731950309042229688?s=20
5⃣️
🔬 IBM量子计算的新进展
  • 介绍了IBM Quantum System 2和下一代量子处理器。
  • Condor拥有1121个超导量子位,Heron拥有133个固定频率量子位。
  • 量子位(Qubits)指数级增长存储信息能力。
🔗 https://x.com/xiaohuggg/status/1731943053928341690?s=20
6⃣️
🎥 Pika:视频特定区域修改功能
  • 'Modify Region' 功能演示。
🔗 https://x.com/xiaohuggg/status/1731904722007970150?s=20
7⃣️
👂 通过再生疗法逆转听力损失
  • MIT衍生公司Frequency Therapeutics研究小分子药物。
  • 治疗耳内微小毛细胞,促进其再生。
  • 临床试验显示部分参与者听力明显改善。
🔗 https://x.com/xiaohuggg/status/1731896401301557749?s=20
8⃣️
🎵 Suno 创作唱歌视频
  • 使用Midjourney+D-ID技术。
🔗 https://x.com/xiaohuggg/status/1731888448582373761?s=20
9⃣️
🎮 GTA 6 预告片泄露事件
  • 泄露导致Rockstar Games提前发布正式版。
🔗 https://x.com/xiaohuggg/status/1731852214304456888?s=20

12月4日

🔔 Xiaohu.AI日报「12月4日」 ✨✨✨✨✨✨✨✨
1⃣️
🎭 MoMask:3D动画人物动作生成
  • 根据文字描述生成3D动画人物动作。
  • 能生成常见动作和复杂动作,如特定舞蹈。
  • 像搭积木般组合动作小块,形成流畅动作序列。
  • 能智能填补动作序列中的空白部分。
🔗https://x.com/xiaohuggg/status/1731601609933865214?s=46
2⃣️
🔠 GPT-4处理混乱文本能力
  • 东京大学研究:GPT-4能恢复混乱字母顺序的句子。
  • 理解并纠正输入错误,包括拼写和语法错误。
  • 即使输入不完整或含糊,仍能提供合理回答。
🔗 论文:arxiv.org/abs/2311.18805
🔗https://x.com/xiaohuggg/status/1731560293971767673?s=46
3⃣️
🎯 超远距离二维码伪造替换攻击技术
  • 日本东海大学研究:100米远使用激光替换QR码。
  • 实时动态攻击,隐蔽性强。
  • 计划扩展至1公里距离的实验。
🔗https://x.com/xiaohuggg/status/1731536662810026348?s=46
4⃣️
🛒 网络购物新体验
  • 使用Quest 3的Figmin XR应用实现混合现实增强体验。
  • 可在网页搜索物品,物理上抓取,现实中查看。
🔗https://x.com/xiaohuggg/status/1731506874586190053?s=46
5⃣️
🔍 从12米远恢复手机输入内容
  • 芝加哥大学研究:用望远镜头恢复远距离手机输入内容。
  • 无需预训练、键盘知识或本地传感器。
🔗https://x.com/xiaohuggg/status/1731499487326298540?s=46
6⃣️
🚗 Cybertruck:首款48V汽车
  • Cybertruck是首款采用48V的汽车。
  • 马斯克解决汽车电压提升问题,分享《如何设计48伏特车辆》书籍。
🔗https://x.com/xiaohuggg/status/1731487869477491157?s=46

12月3日

🔔 Xiaohu.AI日报「12月3日」 ✨✨✨✨✨✨✨✨
1⃣️
📜 我的专业证书成就:
  • 完成了ChatGPT安装工程师、AI伦理执行官等多个证书考试。
  • 包括神经网络导航员和大自然语言模型搬运工等领域。
🔗 https://x.com/xiaohuggg/status/1731317393396478424?s=20
2⃣️
🎨 腾讯AI实验室的Sketch Video Synthesis创新:
  • 从视频到SVG草图的转换。
  • 支持草图视频的再编辑和创意涂鸦。
🔗 https://x.com/xiaohuggg/status/1731298997405720824?s=20
3⃣️
🌌 Voxon的3D体积显示技术:
  • 真三维图像,无需3D眼镜。
  • 超高速数字光引擎,创造流畅的3D体验。
🔗 https://x.com/xiaohuggg/status/1731289863935463905?s=20
4⃣️
📽️ IP-Adapter图像视频生成教程:
  • 作者@InnerRefle11312提供全面指南。
  • 详细介绍节点和设置,分享视频WORKFLOWS。
🔗 https://civitai.com/articles/3194
🔗 https://x.com/xiaohuggg/status/1731270421704773889?s=20
5⃣️
✈️ 创新的单管道推力矢量无人机:
  • 能够向各个方向飞行。
🔗 https://x.com/xiaohuggg/status/1731248386601631909?s=20
6⃣️
🤖 3D可视化展示GPT模型:
  • @BrendanBycroft创建的网页展示了LLM的内部结构。
  • 以3D形式呈现,揭示单个token推理的工作原理。
🔗 https://bbycroft.net/llm
🔗 https://x.com/xiaohuggg/status/1731211469323448764?s=20
7⃣️
🔮 Visual Anagrams的扩散模型创造光学幻觉:
  • 创造旋转、翻转、颜色反转的视觉效果。
  • 展示不同图案或形状的视觉新奇体验。
🔗 https://x.com/xiaohuggg/status/1731195907071484287?s=20
8⃣️
💎 DeepMind发现数百万种新材料:
  • 利用GNoME工具发现超过220万种新晶体材料。
  • 展示AI在材料科学领域的预测能力和准确性。
🔗 https://x.com/xiaohuggg/status/1731161530392268827?s=20
9⃣️
🤖 Anthrobots:实验室培养的活体机器人:
  • 由塔夫茨大学和哈佛大学团队开发。
  • 可以移动并促进受损神经元的生长。
🔗 https://x.com/xiaohuggg/status/1730820836637245452?s=20
🔟
🎨 Excalidraw开源文本到图表功能:
  • 虚拟白板应用,支持手绘风格图表。
  • 用户可输入文本描述自动转换为图形。
🔗 https://excalidraw.com
🔗 https://x.com/xiaohuggg/status/1731150833293955141?s=20

12月2日

🔔 Xiaohu.AI日报「12月2日」 ✨✨✨✨✨✨✨✨
1⃣️
🌐 英伟达H100的主要买家:
  • Meta 和 微软 各购买 150,000 个。
  • 谷歌、亚马逊、甲骨文、腾讯 各购买 50,000 个。
2⃣️
🎤 RealtimeTTS 的特色功能:
  • 实时文本到语音转换,流式处理和即时反应。
  • 精准句子分割,适应不同文本长度。
3⃣️
✈️ Roadrunner 自主飞行器的亮点:
  • 亚音速飞行,垂直起降。AI和自动化技术应用。
  • 可用于多种任务,如消防、搜索救援。
4⃣️
🎥 IPadapter plus 的新特性:
  • 制作高动态战斗场景动画。
5⃣️
🚗 Autoware 开源自动驾驶系统的特点:
  • 基于ROS,模块化架构。
6⃣️
🤖 "Anthrobots" 由塔夫茨大学和哈佛大学合作研发:
  • 微小活体机器人,在实验室移动。
  • 促进受损人类神经元生长。
7⃣️
📄 Marker 转换文件为 Markdown 格式:
  • 支持多种文件格式。
  • 高速、高准确度,优化处理书籍和论文。
8⃣️
💬 ChatGPT-Web 的主要特性:
  • 开源聊天界面,基于 OpenAI API。
  • 无需复杂设置,支持语音输入、DALL·E图像生成等。
9⃣️
🎞️ 机器人扫射特斯拉cybertruck视频:
  • 显示影子细节处理。

12月1日

🔔 Xiaohu.AI日报「12月1日」 ✨✨✨✨✨✨✨✨
1⃣️
🗣️ 微软GAIA项目:合成会说话的头像视频
  • 从语音和单张肖像合成自然会说话的头像视频。
  • 支持文本提示如“悲伤”、“张开嘴”来指导视频生成。
  • 精确控制面部动作,如微笑或惊讶表情。
  • 可接受语音、视频或文字指令。
🔗 https://x.com/xiaohuggg/status/1730547607716643080?s=20
2⃣️
🌐 Meta AI推出Seamless:实时AI语言翻译模型
  • Seamless模型实时翻译100多种语言,延迟不超过2秒。
  • 保持原说话者的情感和语气,翻译后语音自然真实。
🔗 https://x.com/xiaohuggg/status/1730404081972461921?s=20
3⃣️
🖥️ ChatGPT控制电脑教程
  • ChatGPT像人类使用鼠标和键盘,自主操作电脑。
  • 利用GPT 4V,AI能看着屏幕自主操作。
  • 结合不同AI模型,如GPT-4v。
  • 正在开发更准确预测鼠标点击位置的AI模型。
🔗 https://x.com/xiaohuggg/status/1730521049576722624?s=20
4⃣️
🎨 Pikaso:实时作画神器
  • 使用Freepik的Pikaso进行实时图像生成。
  • 通过拖拽或上传素材实时生成图像。
  • 可以自由画笔作画,但风格固定。邀请码:HUG
🔗 https://x.com/xiaohuggg/status/1730485302593225108?s=20
🔗 体验地址:https://freepik.com/pikaso
5⃣️
🎵 Stable Audio:音乐生成新功能
  • 内置风格提示库,轻松生成音乐。
  • 支持上传音乐生成。
  • 控制选项丰富,生成高质量音频。
  • 免费版每月20个音轨,付费版更多。
🔗 体验:http://stableaudio.com
🔗 https://x.com/xiaohuggg/status/1730476486820597883?s=20
6⃣️
📹 Ego-Exo4D:视频学习和多模态感知数据集
  • 由Meta AI和15所大学共同开发。
  • 包含戴相机的人视角和环境拍摄的视频。
  • 旨在帮助AI学习特定环境下的人类行为。
🔗 https://x.com/xiaohuggg/status/1730455784092549356?s=20
7⃣️
🖌️ Pikaso:即将推出实时摄像头画画功能
  • 利用摄像头实时生成图像。
  • 技术发展迅速,带来真实炫酷体验。
🔗 https://x.com/xiaohuggg/status/1730427883779404184?s=20
8⃣️
🏟️ 空间计算技术:改变观看体育赛事方式
  • LIVEPLEX展示沉浸式观看体育赛事。
  • 可改变观看角度,近距离观察运动员。
  • 2024年开始推广应用。
🔗 https://x.com/xiaohuggg/status/1730421265754927482?s=20
9⃣️
🚗 特斯拉Cybertruck交付仪式及配置
  • 后轮驱动版43.5万人民币,续航402公里。
  • 四驱版57万人民币,续航547公里。
  • 野兽版71.4万人民币,续航514公里。
  • 2024年和2025年上市。
🔗 https://x.com/xiaohuggg/status/1730383705108254848?s=20
小互日报-1 月 1 日我希望有人早点告诉我这些 | Sam Altman