关键词:
视觉语言模型
图像修饰
科普文本
直方图交叉核算法
用户研究
摘要:
图像的修饰在人们的日常生活中具有广泛的需求,然而,绝大多数普通人既不了解图片的修饰知识,也不会或者不经常使用专业的图像修饰软件。随着视觉语言模型的兴起,实现高效的人机交互成为可能,针对图像专门设计的外部修饰算法,使得对于图片的修饰方法、效果以及标准能更好地对齐专业的图像修饰软件,最终向用户输出修饰好的图片以及关于图片修饰的科普文本,使得整个过程实现全自动化,满足了普通用户便捷使用的目标,可以极大地便利他们的生活。
本文的主要目标是利用通用人工智能视觉语言模型修饰图片并实现人机交互,帮助不了解图像修饰知识、不常使用专业修饰软件的普通用户便捷、高效地将普通图片修饰为具有一定艺术美感的图片,同时视觉语言模型向用户输出一个有关图像修饰的科普文本,科普文本向用户解释视觉语言模型在整个修饰过程中分析、思考与决策,旨在帮助用户更好的了解和运用图像修饰,实现用户群体的下沉。
本文将修饰过的图片进行多个实验对比,首先与其他流行的图像修饰算法输出的结果进行对比,以某位专业摄影师的修饰过的图片为基准,利用直方图交叉核算法计算本文图片与其他方法图片与基准的相似度,结果表明,本文图片与基准的相似度,在多个维度优于其他图片,证明本文方法与工具的优越性能。其次是将其他视觉语言模型直接修饰的图片与原始图片以及本文修饰的图片进行对比,对比结果表明,本文修饰的图片在美学上更有进步。
本文邀请用户使用系统,并发放问卷展开调查和收集反馈结果,统计数据显示,绝大多数受访者符合本文对目标群体特征的预期,绝大多数受访者对输出的图片和科普文本持肯定态度,这充分表明,本文的研究成果,在帮助和服务普通用户的目标上,取得初步成果。