為圖像地理定位找到更快、更小的AI模型

作者：時(shí)間：2025-11-13 來源：IEEE

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

想象一下，你正在玩一款稍作改動的 “地理猜謎”（GeoGuessr）游戲。屏幕上是一棟普通的住宅，可能是兩層結(jié)構(gòu)，前院帶草坪，位于死胡同里，門前驕傲地飄揚(yáng)著國旗。但這棟房子并無特別之處，沒有任何線索能讓你判斷它所在的地區(qū)或房主的住址。

你手頭有兩個(gè)工具：自己的大腦，以及 44416 張美國各地隨機(jī)地點(diǎn)的低分辨率鳥瞰圖及其相關(guān)位置數(shù)據(jù)。你能將房子與航拍圖像相匹配并正確定位嗎？

我肯定做不到，但一款全新的機(jī)器學(xué)習(xí)模型或許可以。這款軟件由中國石油大學(xué)（華東）的研究人員研發(fā)，能在含位置信息的遙感圖像數(shù)據(jù)庫中檢索，將街景圖像（無論是住宅、商業(yè)建筑還是任何可從道路拍攝的物體）與數(shù)據(jù)庫中的航空圖像進(jìn)行匹配。盡管其他系統(tǒng)也能實(shí)現(xiàn)類似功能，但這款模型體積小巧，且精度極高。

在最佳條件下（面對 180 度視野的圖像時(shí)），它在定位篩選的第一階段準(zhǔn)確率高達(dá) 97%，優(yōu)于或僅比所有可比模型低兩個(gè)百分點(diǎn)。即便在非理想條件下，其表現(xiàn)也超過了許多競爭對手。在精確定位時(shí)，準(zhǔn)確率達(dá)到 82%，與其他模型的差距不超過三個(gè)百分點(diǎn)。

但這款模型的創(chuàng)新之處在于其速度和內(nèi)存占用優(yōu)勢。研究人員表示，它的運(yùn)行速度至少是同類模型的兩倍，內(nèi)存占用卻不足后者的三分之一。這種特性使其在導(dǎo)航系統(tǒng)和國防工業(yè)中具有重要應(yīng)用價(jià)值。

“我們訓(xùn)練 AI 忽略視角上的表面差異，專注于從兩種視圖中提取相同的‘關(guān)鍵地標(biāo)’，并將其轉(zhuǎn)化為一種簡單的共享編碼。” 中國石油大學(xué)從事機(jī)器學(xué)習(xí)和信號處理算法研究的任鵬解釋道。

核心技術(shù)：深度跨視圖哈希法

該軟件依賴一種名為 “深度跨視圖哈希法” 的技術(shù)。它并非將街景圖像的每個(gè)像素與海量鳥瞰圖數(shù)據(jù)庫中的每幅圖像逐一比對，而是通過哈希處理，將街景圖和航空圖等數(shù)據(jù)轉(zhuǎn)化為該數(shù)據(jù)獨(dú)有的數(shù)字字符串。

為實(shí)現(xiàn)這一目標(biāo)，該研究團(tuán)隊(duì)采用了一種名為 “視覺 Transformer” 的深度學(xué)習(xí)模型。這種模型會將圖像分割成小單元，然后尋找這些單元之間的模式。模型會識別出訓(xùn)練中習(xí)得的目標(biāo)，如高樓、圓形噴泉或環(huán)島，再將識別結(jié)果編碼為數(shù)字字符串。ChatGPT 采用的是類似架構(gòu)，但它是從文本中尋找模式而非圖像（GPT 中的 “T” 即代表 “Transformer”）。

“每張圖像對應(yīng)的數(shù)字串就像指紋一樣。” 堪培拉澳大利亞國立大學(xué)研究計(jì)算機(jī)視覺的李洪東表示，這種數(shù)字編碼捕捉了每張圖像的獨(dú)特特征，能讓地理定位過程快速縮小可能的匹配范圍。

在這套新系統(tǒng)中，街景圖像對應(yīng)的編碼會與數(shù)據(jù)庫中所有航空圖像的編碼進(jìn)行比對（測試中，團(tuán)隊(duì)使用了美國和澳大利亞的衛(wèi)星圖像），篩選出五個(gè)最接近的航空圖像候選。研究人員通過一種加權(quán)平均技術(shù)處理這些候選圖像的地理數(shù)據(jù) —— 對位置更接近的候選賦予更高權(quán)重，以減少異常值的影響，最終得出街景圖像的估計(jì)位置。

這項(xiàng)新型地理定位機(jī)制已于上個(gè)月發(fā)表在 IEEE Transactions on Geoscience and Remote Sensing 上。

快速且節(jié)省內(nèi)存

“盡管并非全新范式，但這篇論文代表了該領(lǐng)域的顯著進(jìn)步。” 李洪東說。不過，由于該問題此前已有解決方案，部分專家如圣路易斯華盛頓大學(xué)的計(jì)算機(jī)科學(xué)家 Nathan Jacobs，對此并不太感興趣。“我不認(rèn)為這是一篇特別具有突破性的論文。” 他表示。

但李洪東不同意這一觀點(diǎn) —— 他認(rèn)為，該方法創(chuàng)新性地利用哈希技術(shù)，使圖像匹配比傳統(tǒng)技術(shù)更快、更節(jié)省內(nèi)存。它僅占用 35 MB內(nèi)存，而任鵬團(tuán)隊(duì)測試的第二小模型需要 104 MB，約為其三倍。

研究人員稱，該方法的速度是第二快模型的兩倍多。在將街景圖像與美國航空攝影數(shù)據(jù)集匹配時(shí)，第二名模型的匹配時(shí)間約為 0.005 秒，而中國石油大學(xué)團(tuán)隊(duì)的模型僅需約 0.0013 秒，速度接近前者的四倍。

“因此，我們的方法比傳統(tǒng)圖像地理定位技術(shù)更高效。” 任鵬說，李洪東也證實(shí)了這些說法的可信度。哈希法 “是實(shí)現(xiàn)快速和緊湊性的成熟途徑，報(bào)告的結(jié)果與理論預(yù)期一致”。

盡管這些效率優(yōu)勢前景廣闊，但李洪東表示，仍需進(jìn)一步研究以確保該方法能大規(guī)模應(yīng)用。該團(tuán)隊(duì)尚未充分研究季節(jié)變化、云層遮擋圖像等現(xiàn)實(shí)挑戰(zhàn)，這些因素可能影響地理定位匹配的穩(wěn)健性。任鵬表示，未來可通過引入更多分布廣泛的圖像來克服這一局限。

盡管如此，專家們認(rèn)為，現(xiàn)在就值得考慮其長期應(yīng)用。

Jacobs表示，高效圖像地理定位有一些實(shí)用場景，比如為舊家庭照片自動添加地理標(biāo)簽。但在更嚴(yán)肅的領(lǐng)域，導(dǎo)航系統(tǒng)也可利用此類地理定位方法。他說，如果自動駕駛汽車的 GPS 失效，另一種快速精確的定位方式可能會發(fā)揮重要作用。李洪東還建議，未來五年內(nèi)，它可能在應(yīng)急響應(yīng)中發(fā)揮作用。

該技術(shù)在國防系統(tǒng)中也可能有應(yīng)用。美國國家情報(bào)局局長辦公室 2011 年啟動的 “Finder” 項(xiàng)目，旨在幫助情報(bào)分析師利用航空圖像等參考數(shù)據(jù)，在沒有元數(shù)據(jù)的情況下獲取照片的盡可能多信息 —— 這一目標(biāo)可通過類似這款新型地理定位模型的技術(shù)實(shí)現(xiàn)。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

為圖像地理定位找到更快、更小的AI模型

評論

相關(guān)推薦

技術(shù)專區(qū)