久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 設計應用 > 在進行任何實驗之前,教AI預測細胞的外觀

在進行任何實驗之前,教AI預測細胞的外觀

作者: 時間:2025-12-11 來源:IEEE 收藏

如果你曾經試圖猜測細胞在藥物或基因編輯后如何改變形狀,你就會知道這既是科學,也是藝術,而且大多是昂貴的試錯過程。成像成千上萬的病癥很慢;探索數百萬是不可能的。

《自然通訊》上的一篇新論文提出了另一種方法:直接從分子讀數模擬細胞“后”圖像,這樣你可以在拿起移液器前預覽形態。團隊稱他們的模型為MorphDiff,這是一個由轉錄組引導的擴散模型,即基因在擾動后被調高或調低的模式。

從高層面看,這個想法顛覆了熟悉的工作流程。是一種經過驗證的方法,可以發現化合物的機制或發現生物活性,但對每一個候選藥物或CRISPR靶點進行剖析是不可行的。MorphDiff 從已知基因表達和細胞形態的情況學習,然后僅以 L1000 基因表達譜為條件,生成逼真的擾動后圖像,無論是從零開始還是將對照圖像轉換為擾動后的圖像。該觀點認為,在大型藥物和遺傳數據集中,對未被發現的擾動進行競爭性準確性,加上作用機制(MOA)檢索的提升,可以與真實圖像媲美。

由MBZUAI研究人員領導的這項研究始于一個生物學觀察:基因表達最終驅動蛋白質和路徑,塑造細胞在顯微鏡下的外觀。映射不是一對一的,但有足夠的共享信號用于學習。對轉錄組的條件條件還有一個實用好處:公開可訪問的L1000數據遠多于配對形態學,這使得覆蓋更廣泛的擾動空間變得更容易。換句話說,當新化合物出現時,你很可能會找到它的基因特征,MorphDiff 就可以利用這些特征。

在幕后,MorphDiff融合了兩部分。首先,形態學變分自編碼器(MVAE)將五通道顯微鏡圖像壓縮到緊湊的潛在空間中,并學習以高感知精度重建它們。其次,潛在擴散模型學習在該潛空間中去噪,通過注意引導L1000矢量引導每一步去噪。

1765437902621823.png

擴散在這里很合適:它本質上對噪聲具有強韌性,而潛空間變體足夠高效,可以在保持圖像細節的同時訓練。團隊實現了基因到圖像(G2I)生成(從噪聲開始,轉錄組條件)和圖像到圖像(I2I)轉化(利用相同的轉錄組條件將對照圖像推向擾動狀態)。后者無需重新訓練,這得益于類似SDEdit的過程,這在你想解釋相對于對照的變化時非常有用。

產生上鏡照片是一回事;拍攝生物上相符的照片又是另一回事。論文同時兼顧兩者:在生成方面,MorphDiff 采用了 FID、Inception Score、覆蓋率、密度和基于 CLIP 的 CMMD 等標準指標,以 GAN 和擴散基線進行基準測試。在JUMP(遺傳學)和CDRP/LINCS(藥物)測試中,MorphDiff的兩種模式通常先行和后行,顯著性檢驗則在多個隨機種子或獨立對照板上進行。結果是一致的:更好的保真度和多樣性,尤其是在實際價值存在的值外擾動中。

對生物學家來說,更有趣的是,作者不僅僅關注圖像美學,還探討了形態特征。他們提取數百個CellProfiler特征(紋理、強度、粒度、跨通道相關性),并詢問生成的分布是否與真實情況相符。

在并排比較中,MorphDiff的特征云與真實數據的匹配度比IMPA等基線更為接近。統計檢驗顯示,超過70%的生成特征分布與真實特征無異,特征分布圖顯示模型正確捕捉了與對照組在最受擾動特征上的差異。關鍵是,該模型還保留了基因表達與形態特征之間的相關結構,比以往方法更符合真實情況,這表明它建模的不僅僅是表面樣式。

1765438085912159.png

藥物效果將這一故事擴展到成千上萬的治療方案。團隊利用DeepProfiler嵌入作為緊湊的形態指紋,證明了MorphDiff生成的剖面具有判別性:訓練于真實嵌入的分類器也能通過擾動區分生成的剖面,并且藥物效應之間的兩對距離得以保持。

1765438115317770.png

這對大家關心的下游任務很重要:。給定查詢畫像,你能找到具有相同機制的參考藥物嗎?MorphDiff生成的形態學不僅超越了以往的圖像生成基線,還優于僅靠基因表達的檢索,準確度接近真實 圖像的水平。在top-k檢索實驗中,較最強基線平均改善為16.9%,僅用轉錄組為8.0%,且在多個k值和平均精度、富集折疊等指標上表現出穩健性。這是一個強烈信號,表明模擬形態學包含與化學結構和轉錄組學互補的信息,即使分子本身看起來毫無相似之處,也能幫助找到相似機制。

論文還列出了一些目前的局限性,暗示未來可能有改進的空間。擴散推斷速度相對較慢;作者建議插入更新的采樣器以加快生成速度。時間和集中力(生物學家關注的兩個因素)由于數據限制并未被明確編碼;當匹配數據集可用時,架構可以將其作為額外條件。而且由于MorphDiff依賴擾動基因表達作為輸入,它無法為缺乏轉錄組測量的擾動生成形態學;一個自然的延伸是與預測未見藥物基因表達的模型進行鏈式連接(論文中以GEARS為例)。最后,隨著偏離訓練分布的距離,泛化必然減弱;更大、更匹配的多模態數據集會有所幫助,同時對結構、文本描述或染色質可及性等更多模態的條件也將有幫助。

這在實際作中意味著什么?想象一個擁有龐大L1000文庫但成像預算較小的篩選團隊。MorphDiff成為表型副駕駛:生成新化合物的預測形態,按已知機制的相似性進行聚類,并優先成像以確認。由于模型還揭示了可解釋的特征變化,研究人員可以深入了解其內部情況。內質網的結構和線粒體強度是否如我們預期的那樣變化?兩個結構上無關的分子是否落在了同一個表型鄰里?這些假說加速了機制的尋找和再利用。

更宏觀的是,生成式終于達到了一個可以替代第一階段實驗的真實度。我們已經看到文本轉圖像模型在消費領域爆發式增長;這里,一個轉錄組到形態學的模型表明,相同的擴散機制也能做出科學上有用的工作,比如捕捉細微的多通道表型,并保留使這些圖像不僅僅是視覺裝飾的關系。它不能取代顯微鏡。但如果能減少你要查的車牌數量,那你就能花時間和金錢去驗證那些重要的命中點。


評論


相關推薦

技術專區

關閉