久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > 為圖像地理定位找到更快、更小的AI模型

為圖像地理定位找到更快、更小的AI模型

作者: 時(shí)間:2025-11-13 來源:IEEE 收藏

想象一下,你正在玩一款稍作改動的 “地理猜謎”(GeoGuessr)游戲。屏幕上是一棟普通的住宅,可能是兩層結(jié)構(gòu),前院帶草坪,位于死胡同里,門前驕傲地飄揚(yáng)著國旗。但這棟房子并無特別之處,沒有任何線索能讓你判斷它所在的地區(qū)或房主的住址。

你手頭有兩個(gè)工具:自己的大腦,以及 44416 張美國各地隨機(jī)地點(diǎn)的低分辨率鳥瞰圖及其相關(guān)位置數(shù)據(jù)。你能將房子與航拍相匹配并正確嗎?

我肯定做不到,但一款全新的機(jī)器學(xué)習(xí)模型或許可以。這款軟件由中國石油大學(xué)(華東)的研究人員研發(fā),能在含位置信息的遙感數(shù)據(jù)庫中檢索,將街景(無論是住宅、商業(yè)建筑還是任何可從道路拍攝的物體)與數(shù)據(jù)庫中的航空圖像進(jìn)行匹配。盡管其他系統(tǒng)也能實(shí)現(xiàn)類似功能,但這款模型體積小巧,且精度極高。

在最佳條件下(面對 180 度視野的圖像時(shí)),它在篩選的第一階段準(zhǔn)確率高達(dá) 97%,優(yōu)于或僅比所有可比模型低兩個(gè)百分點(diǎn)。即便在非理想條件下,其表現(xiàn)也超過了許多競爭對手。在精確時(shí),準(zhǔn)確率達(dá)到 82%,與其他模型的差距不超過三個(gè)百分點(diǎn)。

但這款模型的創(chuàng)新之處在于其速度和內(nèi)存占用優(yōu)勢。研究人員表示,它的運(yùn)行速度至少是同類模型的兩倍,內(nèi)存占用卻不足后者的三分之一。這種特性使其在導(dǎo)航系統(tǒng)和國防工業(yè)中具有重要應(yīng)用價(jià)值。

“我們訓(xùn)練 AI 忽略視角上的表面差異,專注于從兩種視圖中提取相同的‘關(guān)鍵地標(biāo)’,并將其轉(zhuǎn)化為一種簡單的共享編碼。” 中國石油大學(xué)從事機(jī)器學(xué)習(xí)和信號處理算法研究的任鵬解釋道。

核心技術(shù):深度跨視圖哈希法

該軟件依賴一種名為 “深度跨視圖哈希法” 的技術(shù)。它并非將街景圖像的每個(gè)像素與海量鳥瞰圖數(shù)據(jù)庫中的每幅圖像逐一比對,而是通過哈希處理,將街景圖和航空圖等數(shù)據(jù)轉(zhuǎn)化為該數(shù)據(jù)獨(dú)有的數(shù)字字符串。

為實(shí)現(xiàn)這一目標(biāo),該研究團(tuán)隊(duì)采用了一種名為 “視覺 Transformer” 的深度學(xué)習(xí)模型。這種模型會將圖像分割成小單元,然后尋找這些單元之間的模式。模型會識別出訓(xùn)練中習(xí)得的目標(biāo),如高樓、圓形噴泉或環(huán)島,再將識別結(jié)果編碼為數(shù)字字符串。ChatGPT 采用的是類似架構(gòu),但它是從文本中尋找模式而非圖像(GPT 中的 “T” 即代表 “Transformer”)。

“每張圖像對應(yīng)的數(shù)字串就像指紋一樣。” 堪培拉澳大利亞國立大學(xué)研究計(jì)算機(jī)視覺的李洪東表示,這種數(shù)字編碼捕捉了每張圖像的獨(dú)特特征,能讓地理定位過程快速縮小可能的匹配范圍。

在這套新系統(tǒng)中,街景圖像對應(yīng)的編碼會與數(shù)據(jù)庫中所有航空圖像的編碼進(jìn)行比對(測試中,團(tuán)隊(duì)使用了美國和澳大利亞的衛(wèi)星圖像),篩選出五個(gè)最接近的航空圖像候選。研究人員通過一種加權(quán)平均技術(shù)處理這些候選圖像的地理數(shù)據(jù) —— 對位置更接近的候選賦予更高權(quán)重,以減少異常值的影響,最終得出街景圖像的估計(jì)位置。

這項(xiàng)新型地理定位機(jī)制已于上個(gè)月發(fā)表在 IEEE Transactions on Geoscience and Remote Sensing 上。

快速且節(jié)省內(nèi)存

“盡管并非全新范式,但這篇論文代表了該領(lǐng)域的顯著進(jìn)步。” 李洪東說。不過,由于該問題此前已有解決方案,部分專家如圣路易斯華盛頓大學(xué)的計(jì)算機(jī)科學(xué)家 Nathan Jacobs,對此并不太感興趣。“我不認(rèn)為這是一篇特別具有突破性的論文。” 他表示。

但李洪東不同意這一觀點(diǎn) —— 他認(rèn)為,該方法創(chuàng)新性地利用哈希技術(shù),使圖像匹配比傳統(tǒng)技術(shù)更快、更節(jié)省內(nèi)存。它僅占用 35 MB內(nèi)存,而任鵬團(tuán)隊(duì)測試的第二小模型需要 104 MB,約為其三倍。

研究人員稱,該方法的速度是第二快模型的兩倍多。在將街景圖像與美國航空攝影數(shù)據(jù)集匹配時(shí),第二名模型的匹配時(shí)間約為 0.005 秒,而中國石油大學(xué)團(tuán)隊(duì)的模型僅需約 0.0013 秒,速度接近前者的四倍。

“因此,我們的方法比傳統(tǒng)圖像地理定位技術(shù)更高效。” 任鵬說,李洪東也證實(shí)了這些說法的可信度。哈希法 “是實(shí)現(xiàn)快速和緊湊性的成熟途徑,報(bào)告的結(jié)果與理論預(yù)期一致”。

盡管這些效率優(yōu)勢前景廣闊,但李洪東表示,仍需進(jìn)一步研究以確保該方法能大規(guī)模應(yīng)用。該團(tuán)隊(duì)尚未充分研究季節(jié)變化、云層遮擋圖像等現(xiàn)實(shí)挑戰(zhàn),這些因素可能影響地理定位匹配的穩(wěn)健性。任鵬表示,未來可通過引入更多分布廣泛的圖像來克服這一局限。

盡管如此,專家們認(rèn)為,現(xiàn)在就值得考慮其長期應(yīng)用。

Jacobs表示,高效圖像地理定位有一些實(shí)用場景,比如為舊家庭照片自動添加地理標(biāo)簽。但在更嚴(yán)肅的領(lǐng)域,導(dǎo)航系統(tǒng)也可利用此類地理定位方法。他說,如果自動駕駛汽車的 GPS 失效,另一種快速精確的定位方式可能會發(fā)揮重要作用。李洪東還建議,未來五年內(nèi),它可能在應(yīng)急響應(yīng)中發(fā)揮作用。

該技術(shù)在國防系統(tǒng)中也可能有應(yīng)用。美國國家情報(bào)局局長辦公室 2011 年啟動的 “Finder” 項(xiàng)目,旨在幫助情報(bào)分析師利用航空圖像等參考數(shù)據(jù),在沒有元數(shù)據(jù)的情況下獲取照片的盡可能多信息 —— 這一目標(biāo)可通過類似這款新型地理定位模型的技術(shù)實(shí)現(xiàn)。


關(guān)鍵詞: AI模型 定位 圖像

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉