分类标签归档:多模态

【置顶】Animagine XL:高分辨率潜在文本生成模型【AIGC】


Animagine XL 是一款高分辨率的潜在文本生成模型,使用精选的优质动漫风格图像数据集,在学习率为 4e-7、批量大小为 16 的情况下进行了 27000 个全局步骤的微调。该模型派生自 Stable Diffusion XL 1.0。

你可以使用以下工具:

像其他动漫风格的 Stable Diffusion 模型一样,它也支持 Danbooru 标签生成图像。

例如:面部焦点,可爱,杰作,最佳质量,1 女孩,绿色头发,毛衣,看着观众,上半身,无檐帽,室外,夜间

Read more

英伟达与元宇宙(一)


英伟达与元宇宙

如何看待USD的发展

什么是USD

  • 创始人: Pixar 皮克斯
  • 创建初衷: 生产电影级质量的数字内容,并且有着很好的拓展性
  • 全名:Universal Scene Description
  • 描述:易于扩展的开源3D场景说明和文件格式,在不同的工具间进行内容创作和转换
  • 应用示例: 玩具总动员4——-对于动画电影制作流程有革命性改进

Untitled

什么是 NVIDIA Omniverse

  • 描述:创建和运行元宇宙应用的平台;基于 USD的可扩展平台,可使个人和团队更快地构建自定义 3D 工作流并模拟大型虚拟世界
  • 教程中心:https://developer.nvidia.com/nvidi

Read more

视频片段检索研究综述


视频片段检索研究综述

视频片段检索旨在利用用户给出的自然语言查询语句,在一个长视频中找到最符合语句描述的目标视频 片段.视频中包含丰富的视觉、文本、语音信息,如何理解视频中提供的信息,以及查询语句提供的文本信息,并进行 跨模态信息的对齐与交互,是视频片段检索任务的核心问题.本文系统梳理了当前视频片段检索领域中的相关工作,将它们分为两大类:基于排序的方法和基于定位的方法. 其中,基于排序的方法又可细分为预设候选片段的方法和有 指导地生成候选片段的方法;而基于定位的方法则可分为一次定位的方法和迭代定位的方法.本文还对本领域的数 据集和评价指标进行了介绍,并对一些模型在多个常用数据集上的性能进行了总

Read more