分类目录归档:多模态

【置顶】Animagine XL:高分辨率潜在文本生成模型【AIGC】


Animagine XL 是一款高分辨率的潜在文本生成模型,使用精选的优质动漫风格图像数据集,在学习率为 4e-7、批量大小为 16 的情况下进行了 27000 个全局步骤的微调。该模型派生自 Stable Diffusion XL 1.0。

你可以使用以下工具:

像其他动漫风格的 Stable Diffusion 模型一样,它也支持 Danbooru 标签生成图像。

例如:面部焦点,可爱,杰作,最佳质量,1 女孩,绿色头发,毛衣,看着观众,上半身,无檐帽,室外,夜间

Read more

【置顶】英伟达 CALM 虚拟角色定制模型开源


什么是CALM

它可以生成多样化且可定向行为的角色。该方法通过模仿学习来学习语义运动表示,以捕捉人体运动的复杂性和多样性,并能够直接控制角色运动。该方法联合学习控制策略和运动编码器,该编码器可以重建给定运动的关键特征,而不仅仅是复制它。该方法分为三个阶段:第一阶段是低级训练,CALM 学习编码器和解码器;第二阶段是方向性控制,高级任务驱动策略被用来选择潜在变量,这些变量被提供给生成所请求的动作的低级策略;第三阶段是推理,先前训练的模型(低级策略和方向控制器)组合起来组成复杂的动作。在这个阶段,用户可以生成一个包含标准规则和命令的有限状态机 (FSM),这些决定了执行哪个动作。该方法的实验结果表

Read more

英伟达与元宇宙(一)


英伟达与元宇宙

如何看待USD的发展

什么是USD

  • 创始人: Pixar 皮克斯
  • 创建初衷: 生产电影级质量的数字内容,并且有着很好的拓展性
  • 全名:Universal Scene Description
  • 描述:易于扩展的开源3D场景说明和文件格式,在不同的工具间进行内容创作和转换
  • 应用示例: 玩具总动员4——-对于动画电影制作流程有革命性改进

Untitled

什么是 NVIDIA Omniverse

  • 描述:创建和运行元宇宙应用的平台;基于 USD的可扩展平台,可使个人和团队更快地构建自定义 3D 工作流并模拟大型虚拟世界
  • 教程中心:https://developer.nvidia.com/nvidi

Read more

视频片段检索研究综述


视频片段检索研究综述

视频片段检索旨在利用用户给出的自然语言查询语句,在一个长视频中找到最符合语句描述的目标视频 片段.视频中包含丰富的视觉、文本、语音信息,如何理解视频中提供的信息,以及查询语句提供的文本信息,并进行 跨模态信息的对齐与交互,是视频片段检索任务的核心问题.本文系统梳理了当前视频片段检索领域中的相关工作,将它们分为两大类:基于排序的方法和基于定位的方法. 其中,基于排序的方法又可细分为预设候选片段的方法和有 指导地生成候选片段的方法;而基于定位的方法则可分为一次定位的方法和迭代定位的方法.本文还对本领域的数 据集和评价指标进行了介绍,并对一些模型在多个常用数据集上的性能进行了总

Read more