現(xiàn)在咨詢,獲得最前沿的AR產(chǎn)品
2025-11-19
編輯:劉余欣|分類:論文|2025年11月17日
(映維網(wǎng)Nweon 2025年11月17日)隨著生成式AI在圖像創(chuàng)建領(lǐng)域的快速發(fā)展,AI生成全景圖像因其在虛擬現(xiàn)實和增強現(xiàn)實應用中的潛力而備受關(guān)注。然而,這類圖像存在的獨特質(zhì)量問題,如幾何扭曲、語義不合理性以及文本-圖像對應性差,嚴重影響了沉浸式用戶體驗。當前,缺乏專門用于系統(tǒng)評估和優(yōu)化AI生成全景圖像(AIGODIS)質(zhì)量的數(shù)據(jù)集和計算方法。
為解決這一問題,上海交通大學,天津大學,華東師范大學,法國南特大學團隊構(gòu)建了首個綜合性人類反饋數(shù)據(jù)庫OHF2024,并基于此提出了兩個新型計算模型:BLIP2OIQA(用于圖像質(zhì)量評估)和BLIP2OISal(用于失真感知顯著性預測)。這項研究首次實現(xiàn)了對AIGODIS的多維度質(zhì)量度量、局部失真區(qū)域的精準定位,以及基于反饋的自動化圖像優(yōu)化。

研究團隊系統(tǒng)地構(gòu)建了OHF2024數(shù)據(jù)庫,其流程如下:
● 數(shù)據(jù)生成:研究從50個涵蓋室內(nèi)外場景的文本提示詞出發(fā),采用了五種代表性的生成模型(MVDiffusion, Text2Light, DALLE, omni-inpainting, 及一個微調(diào)的Stable Diffusion模型)進行圖像生成,最終獲得600張AIGODIS,確保了數(shù)據(jù)源的多樣性。
● 主觀實驗設(shè)計:在嚴格控制的實驗環(huán)境下,20名具有正常或矯正視力的受試者使用HTC VIVE Pro Eye頭戴式顯示器,對每張圖像從三個預定義的維度進行評分:
● 質(zhì)量:評估顏色、光照、清晰度等低層視覺屬性。
● 舒適度:評估由圖像失真、結(jié)構(gòu)變形等引起的視覺不適感,該維度對VR/AR應用至關(guān)重要。
● 對應性:評估生成圖像與輸入文本提示詞的語義一致性。
● 失真感知標注:除了評分,受試者還通過手柄點擊提供了圖像中嚴重失真區(qū)域的坐標數(shù)據(jù)。這些數(shù)據(jù)經(jīng)處理后生成了600張連續(xù)的失真感知顯著圖,為模型訓練提供了像素級的監(jiān)督信號。
● 數(shù)據(jù)處理與統(tǒng)計分析:主觀評分遵循ITU-R BT.500標準進行異常值剔除和Z-score歸一化,最終計算得到每個圖像的三個平均意見得分(MOS)。統(tǒng)計分析表明,三個評估維度間的斯皮爾曼秩相關(guān)系數(shù)僅為中等或弱相關(guān)(0.4-0.61),證實了多維度評估框架的必要性。
BLIP2OIQA模型旨在精確預測人類在三個維度上的視覺體驗分數(shù)。其技術(shù)架構(gòu)包含以下核心組件:
● 視口分割與特征提取:模型首先將輸入的等距柱狀投影全景圖渲染為六個視口圖像(上、下、前、后、左、右,F(xiàn)OV=110°)。每個視口圖像與文本提示詞一同輸入一個基于BLIP-2構(gòu)建的共享編碼器。該編碼器利用其Q-Former模塊,通過交叉注意力機制,生成每個視口的文本-圖像融合特征。
● 注意力特征聚合模塊:該模塊模擬人類瀏覽全景圖時的認知過程。首先,自注意力層捕捉每個視口內(nèi)部的質(zhì)量信息。隨后,三個獨立的交叉注意力層(權(quán)重不共享)分別處理視口間特征,專門用于提取與“質(zhì)量”、“舒適度”和“對應性”相關(guān)的全局一致性信息。例如,舒適度交叉注意力層會重點關(guān)注視口間的幾何連貫性和風格一致性。
● 分數(shù)回歸:聚合后的三個視角感知特征向量,分別通過三個獨立的多層感知機(MLP)回歸頭,映射為最終的維度分數(shù)。訓練中使用L1損失函數(shù)直接優(yōu)化預測分數(shù)與MOS之間的差異。
BLIP2OISal模型的任務(wù)是輸出一張與輸入全景圖分辨率相同的顯著圖,高亮顯示存在嚴重失真的視覺顯著區(qū)域。與BLIP2OIQA不同,該模型將整張全景圖(不進行視口分割)與文本提示詞輸入共享編碼器,以獲得全局的文本-圖像融合特征,并保留編碼過程中產(chǎn)生的多層圖像特征以提供空間細節(jié)。
團隊進行了廣泛的實驗以驗證模型性能。對于IQA性能,在OHF2024測試集上,BLIP2OIQA在質(zhì)量、舒適度、對應性三個維度的評估中,其斯皮爾曼秩相關(guān)系數(shù)(SRCC)和皮爾遜線性相關(guān)系數(shù)(PLCC)均顯著優(yōu)于包括MANIQA、HyperIQA等在內(nèi)的21種先進無參考IQA模型。交叉生成模型測試進一步證明了其良好的泛化能力。

對于顯著性預測性能,BLIP2OISal在失真感知任務(wù)上,在CC、NSS、KLD等多個關(guān)鍵指標上全面超越了20種傳統(tǒng)及深度學習顯著性預測模型,表明其能更有效地定位與失真相關(guān)的視覺注意力區(qū)域。
另外,消融研究顯示,通過系統(tǒng)性移除模型組件(如視口分割、注意力模塊、特征融合模塊等)的實驗,證實了所提出架構(gòu)中每個核心組件的有效性,尤其是交叉注意力機制和文本-圖像特征融合對性能提升貢獻顯著。
同時,研究團隊演示了一個完整的自動化優(yōu)化閉環(huán)。所述流程首先利用BLIP2OIQA篩選出低質(zhì)量圖像,隨后使用BLIP2OISal預測其失真區(qū)域并生成二值掩碼。將該掩碼與原始圖像輸入至MVDiffusion的修復模塊中,對指定區(qū)域進行內(nèi)容重生成。定量與定性結(jié)果均顯示,優(yōu)化后的圖像在BLIP2OIQA預測分數(shù)和后續(xù)人工評分上均有顯著提升,驗證了該優(yōu)化流程的有效性。
相關(guān)論文:Quality Assessment and Distortion-aware Saliency Prediction for AI-Generated Omnidirectional Images
https://arxiv.org/pdf/2506.21925
這項研究通過構(gòu)建高質(zhì)量的OHF2024數(shù)據(jù)庫和提出性能卓越的BLIP2系列模型,為解決AI生成全景圖像的質(zhì)量評估與優(yōu)化問題提供了首個端到端的解決方案。它不僅推動了沉浸式媒體內(nèi)容質(zhì)量評估領(lǐng)域的研究進展,同時為AIGC在VR/AR產(chǎn)業(yè)中的實際應用提供了關(guān)鍵的工具和方法。
轉(zhuǎn)載聲明:
本文轉(zhuǎn)載自映維網(wǎng)【劉余欣】,于2025年11月17日首發(fā),原文鏈接:
文章所用圖片、視頻均來自文章關(guān)聯(lián)個人、企業(yè)實體等提供
若本轉(zhuǎn)載內(nèi)容存在侵權(quán)情形(包括但不限于未經(jīng)授權(quán)轉(zhuǎn)載、內(nèi)容版權(quán)爭議等),請版權(quán)相關(guān)方及時與我方聯(lián)系,我方在核實相關(guān)情況后,將第一時間刪除該內(nèi)容,以保障您的合法權(quán)益