4月28日丨AI日报：当前最强国产Sora大模型Vidu发布；Kimi Chat移动端升级；通义千问开源首个千亿参数模型

4月28日AI日报

1、清华团队发布视频大模型Vidu 可生成16 秒、1080P 视频

2、通义千问团队开源首个千亿参数模型Qwen1.5-110B

3、Kimi Chat移动端UI大幅重构

4、Domo AI新增乐高、美国漫画等4个风格新用户可免费试用15个点数

5、苹果计划与 OpenAI 合作，加强 iPhone 人工智能功能

6、谷歌推出 AI 英语对话练习功能

7、元象开源首个多模态大模型XVERSE-V

8、Perplexica：开源AI驱动的问答搜索引擎

9、Meta 推出 LayerSkip：提升大语言模型推理速度

10、调查显示：1/3的翻译者和1/4的插画师已经因AI失去了工作

11、WebLlama：基于Llama-3-8B的智能网页浏览代理

12、Mutable AI发布Auto Wiki v2：将代码转换为类似于维基百科风格的文章

13、Cog-Become-Image项目介绍

14、PhysDreamer：让3D物体符合物理规律动起来

清华团队发布视频大模型Vidu.jpg

1. 清华团队发布视频大模型Vidu 可生成16 秒、1080P 视频

清华大学与生数科技在中关村论坛未来人工智能先锋论坛上发布了中国首个长时长、高一致性、高动态性视频大模型Vidu，标志着中国在视频生成技术领域取得重要进展。该模型采用创新性的U-ViT架构，能一键生成高清视频内容，具备高时空一致性和丰富的想象力。

亮点提要：

⭐ Vidu是中国首个达到Sora级别的视频大模型，具有高一致性、高动态性，能生成长达16秒、1080P的高清视频内容。

⭐ Vidu采用创新性的U-ViT架构，融合了Diffusion与Transformer技术，支持多镜头生成和模拟真实物理世界。

⭐ Vidu的U-ViT架构是全球首个将Diffusion与Transformer融合的架构，具有开源成就，验证了大规模可扩展性。

2. 通义千问团队开源首个千亿参数模型Qwen1.5-110B

通义千问团队开源的首个千亿参数模型Qwen1.5-110B在基础能力和Chat评估中表现出色，展示了模型规模扩展对性能提升的重要意义。该模型采用Transformer解码器架构，支持多种语言，具有高效的分组查询注意力机制。Qwen1.5-110B是通义千问系列中规模最大的模型，拥有超过1000亿参数，在与SOTA模型的比较中表现出色。团队将继续探索模型规模提升和扩展预训练数据规模的优势。

亮点提要：

⭐ Qwen1.5-110B是首个拥有超过1000亿参数的模型，在Chat评估中表现更好，展示了更大规模模型的潜力。

⭐ 110B模型的性能提升主要来自于增加的模型规模，而训练方法并未大幅改变，表明模型规模扩展对性能提升具有重要意义。

⭐ Qwen1.5-110B采用Transformer解码器架构，支持多种语言，具有高效的分组查询注意力机制，展示了在模型大小扩展方面仍有提升空间。

Kimi Chat移动端UI大幅重构.png

3. Kimi Chat移动端UI大幅重构

Kimi Chat移动端应用迎来了重要的更新，版本1.2.1对用户界面进行了全面的重构，引入了“月之亮面”浅色模式，提供更加舒适和直观的用户体验。更新包括界面改进、性能优化、内存管理、电池效率、功能增强、安全性提升、兼容性改进、错误修复、本地化支持和辅助功能。用户只需更新至最新版本1.2.1即可体验新功能。

亮点提要：

⭐ 界面改进: 界面重新设计，美观易用，操作更直观。

⭐ 性能优化: 提升响应速度和流畅度，减少卡顿和延迟。

⭐ 安全性提升: 增强应用安全性，保护用户数据和隐私。

Domo AI新增乐高、美国漫画等4个风格.jpg

4. Domo AI新增乐高、美国漫画等4个风格新用户可免费试用15个点数

DomoAI最近新增了乐高风格、美国漫画风格、彩笔风格、像素艺术四个新风格，并且为庆祝其推特账号粉丝超过1万，新用户可免费试用15个点数。此前，DomoAI推出了视频色度抠图功能，用户可以将扣出的人物合成到新背景中。用户还可以轻松自定义后台背景颜色，制作跳舞视频等功能。

亮点提要：

⭐ DomoAI新增了乐高风格、美国漫画风格、彩笔风格、像素艺术四个新风格。

⭐ 新用户可免费试用15个点数。

⭐ 用户可以使用 /move 命令将静态照片变成动态视频。

5. 苹果计划与 OpenAI 合作，加强 iPhone 人工智能功能

苹果寻求与 OpenAI 合作，以提升 iPhone 的人工智能功能。前任机器学习总监离职后，苹果人工智能发展步履维艰。苹果可能在全球开发者大会前推出新的生成式人工智能产品。

亮点提要：

⭐ 苹果寻求与 OpenAI 合作，提升 iPhone 的人工智能功能。

⭐ 前任机器学习总监离职后，苹果人工智能发展步履维艰。

⭐ 苹果可能在全球开发者大会前推出新的生成式人工智能产品。

谷歌推出 AI 英语对话练习功能.png

6. 谷歌推出 AI 英语对话练习功能

谷歌最近推出了AI语音对话练习功能，让用户可以通过手机与对话机器人进行英语会话练习。虽然功能目前仅限于部分国家使用，但谷歌可能会将其扩展到更多国家。文章介绍了谷歌的语言学习工具提供的对话练习和反馈功能，以及其在AI辅助语言学习领域的发展。

亮点提要：

⭐ 谷歌推出AI语音对话练习功能，让用户通过手机与对话机器人进行英语会话练习。

⭐ 目前功能仅限于部分国家使用，但可能会扩展到更多国家。

⭐ 虽然缺乏像Duolingo等应用的课程设置，但提供了对话练习和反馈功能。

元象开源首个多模态大模型XVERSE-V.jpg

7. 元象开源首个多模态大模型XVERSE-V

作为元象公司发布的首个多模态大型模型，XVERSE-V在多个权威评测中表现优异，综合能力出色。该模型融合整体和局部信息的策略，提高了图像识别和分析的准确性和全面性。除了图像识别，XVERSE-V在信息图理解、视障场景处理、文本生成、教育解题等实际应用中也表现突出。

亮点提要：

⭐ XVERSE-V是首个多模态大型模型，支持任意宽高比的图像输入。

⭐ 该模型在综合能力上表现出色，取得优异成绩。

⭐ XVERSE-V采用融合整体和局部信息的策略，提高图像识别和分析的准确性和全面性。

8. Perplexica：开源AI驱动的问答搜索引擎

Perplexica是一个开源的AI驱动搜索引擎，提供多种搜索模式，旨在为用户提供更精准、更智能的搜索体验。它具有先进的机器学习算法，确保用户隐私和提供最新的搜索结果。Perplexica致力于成为全面、高效的搜索解决方案。

亮点提要：

⭐ 提供多种搜索模式，根据用户需求调整搜索算法，以获得更相关的搜索结果。

⭐ 使用先进的机器学习算法来精细化搜索结果，包括相似性搜索和嵌入技术。

⭐ 确保隐私保护，使用SearxNG作为当前性保障，避免每日数据更新的开销。

9. Meta 推出 LayerSkip：提升大语言模型推理速度

Meta公司最新发布的LayerSkip技术旨在提升大型语言模型的推理速度，通过优化推理过程，减少计算资源消耗，保持模型性能。这对实时需求高的应用场景具有重要意义，反映了Meta在AI模型效率方面的持续投入和创新。LayerSkip技术的未来展望将为大语言模型的部署和使用带来更多可能性，特别是在需要快速处理大量语言数据的场合。

亮点提要：

⭐ LayerSkip在CNN/DM文档摘要任务中将推理速度提升了2.16倍，显著提高了文档处理效率。

⭐ LayerSkip在编程任务中实现了1.82倍的速度提升，可能优化编程辅助工具的性能。

⭐ LayerSkip在TOPv2语义解析任务上推理速度提升达到了2.0倍，对语义解析等自然语言处理任务有重要影响。

10. 调查显示：1/3的翻译者和1/4的插画师已经因AI失去了工作

AI技术的快速发展对创意产业造成深远影响，英国作家协会的调查揭示了AI对作家、翻译者、插画师等职业的影响，引发了行业内的担忧和呼吁。

亮点提要：

⭐ 约五分之一的创作者在工作中使用过生成性AI，AI技术已经开始渗透到各个创作领域。

⭐ 1/4的插画师和1/3的翻译者因生成性AI失去了工作，工作机会受到直接威胁。

⭐ 大多数小说家和非小说类作家担心AI技术将对未来创意工作收入产生负面影响，强烈呼吁获得版权保护和政府监管。

11. WebLlama：基于Llama-3-8B的智能网页浏览代理

WebLlama是一款基于Llama-3-8B模型的智能代理工具，通过对话与用户互动，执行网页浏览相关任务。它能处理连续对话，理解用户指令，自动完成网上搜索、导航和信息检索等操作。WebLlama展示了强大的对话处理能力和网页交互功能，提高用户获取信息效率，减少手动操作需求。在专业基准测试中表现优异，具有先进性和实用性，有望在自动化网页浏览和信息收集方面发挥更大作用。

亮点提要：

⭐ 对话理解: 能听取用户指令，与用户交互。

⭐ 自动网页浏览: 执行搜索、导航，帮助用户获取信息。

⭐ 完成复杂任务: 能预定酒店、购物或查找信息等实际应用任务。

12. Mutable AI发布Auto Wiki v2：将代码转换为类似于维基百科风格的文章

Mutable AI推出的Auto Wiki v2是一款革命性的工具，能够自动将代码转化为维基百科风格的文章，解决了代码文档化难题。这一创新解决方案提供了清晰描述的代码文档，可视化理解代码，提升开发效率。

亮点提要：

⭐ 自动将代码转化为维基百科风格文章，解决代码文档化难题。

⭐ 自动生成清晰描述的代码文档，可视化理解代码。

⭐ 提供代码图表、自动更新文档等多项功能，提升开发效率。

13. Cog-Become-Image：将任意人物图像转换成指定风格的图

Cog-Become-Image项目是一个创新的图像转换工具，可以将任意人物的面部图像转换成另一种风格的图片。该项目在艺术创作、媒体制作和娱乐行业有广泛的应用前景，为图像转换领域带来新的可能。无论是专业开发者还是技术爱好者，都可以利用这个项目来实现创意图像的转换。