关于我们
![]() ![]() |
视觉描述生成理论与方法研究
视觉描述生成是视觉场景理解领域的基础问题,旨在深入理解视觉场景中的目标与环境信息,生成与视觉内容相匹配且符合人类语言规则的文本描述。在生成式人工智能、智能态势感知等诸多领域具有重要的理论意义和应用价值。然而,实际应用场景复杂多变,具有对象分布密集、目标种类繁多、数据收集和标注困难等特性,并且视觉和文本之间模态差异大,从而导致模型生成的描述面临结构完整性较低、内容准确性不足、描述充分性欠缺、数据依赖性过高等。本书以视觉描述生成任务为切入点,针对实际应用场景复杂多变、对象分布密集、目标种类繁多、数据收集和标注困难等特性与难点,从语义特征编码与解码两个角度出发,开展视觉描述生成理论与方法研究,并进一步探索了半监督、无监督下的视觉描述生成问题。
你还可能感兴趣
我要评论
|