分类目录归档：多模态

【置顶】Animagine XL：高分辨率潜在文本生成模型【AIGC】

500 views

Animagine XL 是一款高分辨率的潜在文本生成模型，使用精选的优质动漫风格图像数据集，在学习率为 4e-7、批量大小为 16 的情况下进行了 27000 个全局步骤的微调。该模型派生自 Stable Diffusion XL 1.0。

你可以使用以下工具：

结合使用 Stable Diffusion Webui
结合使用 🧨 diffusers
结合使用 ComfyUI（推荐）

像其他动漫风格的 Stable Diffusion 模型一样，它也支持 Danbooru 标签生成图像。

例如：面部焦点，可爱，杰作，最佳质量，1 女孩，绿色头发，毛衣，看着观众，上半身，无檐帽，室外，夜间

【置顶】英伟达 CALM 虚拟角色定制模型开源

发表评论

329 views

什么是CALM

它可以生成多样化且可定向行为的角色。该方法通过模仿学习来学习语义运动表示，以捕捉人体运动的复杂性和多样性，并能够直接控制角色运动。该方法联合学习控制策略和运动编码器，该编码器可以重建给定运动的关键特征，而不仅仅是复制它。该方法分为三个阶段：第一阶段是低级训练，CALM 学习编码器和解码器；第二阶段是方向性控制，高级任务驱动策略被用来选择潜在变量，这些变量被提供给生成所请求的动作的低级策略；第三阶段是推理，先前训练的模型（低级策略和方向控制器）组合起来组成复杂的动作。在这个阶段，用户可以生成一个包含标准规则和命令的有限状态机 (FSM)，这些决定了执行哪个动作。该方法的实验结果表

英伟达与元宇宙(一)

发表评论

614 views

英伟达与元宇宙

如何看待USD的发展

什么是USD

创始人： Pixar 皮克斯
创建初衷：生产电影级质量的数字内容，并且有着很好的拓展性
全名：Universal Scene Description
描述：易于扩展的开源3D场景说明和文件格式，在不同的工具间进行内容创作和转换
应用示例：玩具总动员4——-对于动画电影制作流程有革命性改进

Untitled

什么是 NVIDIA Omniverse

描述：创建和运行元宇宙应用的平台；基于 USD的可扩展平台，可使个人和团队更快地构建自定义 3D 工作流并模拟大型虚拟世界
教程中心：https://developer.nvidia.com/nvidi

视频片段检索研究综述

发表评论

516 views

视频片段检索研究综述

视频片段检索旨在利用用户给出的自然语言查询语句,在一个长视频中找到最符合语句描述的目标视频片段.视频中包含丰富的视觉、文本、语音信息,如何理解视频中提供的信息,以及查询语句提供的文本信息,并进行跨模态信息的对齐与交互,是视频片段检索任务的核心问题.本文系统梳理了当前视频片段检索领域中的相关工作,将它们分为两大类:基于排序的方法和基于定位的方法. 其中,基于排序的方法又可细分为预设候选片段的方法和有指导地生成候选片段的方法;而基于定位的方法则可分为一次定位的方法和迭代定位的方法.本文还对本领域的数据集和评价指标进行了介绍,并对一些模型在多个常用数据集上的性能进行了总