人工智能設計重塑數據管理
人工智能正從工作流程、崗位設置和獨特的數據管理挑戰等方面,深刻影響著半導體設計領域。
核心要點
將人工智能融入芯片設計流程,正推動企業全面革新數據管理策略,實現從被動存儲向主動、結構化、機器可讀取系統的轉型。
隨著模型訓練與推理工作負載持續增加,數據遷移、網絡擁塞和能效問題已成為核心挑戰,其重要性往往超越了原始算力本身。
電子設計自動化(EDA)領域專屬且復雜的數據格式,加之公開數據資源有限,導致針對半導體設計的人工智能模型微調難度極大,在檢索增強生成(RAG)和模型微調場景中,需依托大量的數據解析工作和專業領域知識,才能實現數據的有效利用。
人工智能正迫使半導體企業從根本上重新思考數據管理模式,將其從一項被動的存儲工作,轉變為一門主動的工程學科。
工程團隊首先必須將分散的日志文件和設計成果整合至機器可讀取的數據湖,通過元數據和本體論為其補充信息,并在各類工具間搭建穩定的數據流管道。為實現這一目標,團隊會借助智能輔助工具、檢索增強生成技術和微調模型,而所有操作都需在嚴格的安全規范和本地部署的約束下完成。隨著數據量的持續增長,企業不僅需要增設電子設計自動化數據管理員這一新崗位,還需對數據結構和數據質量進行持續投入。
無論工程團隊采用檢索增強生成技術、訓練模型還是對數據進行微調,若數據僅處于閑置狀態,便毫無實際價值。企業需要從不同的服務器集群、設計工具和項目中收集歷史及現有數據,再按項目、流程階段和團隊歸屬完成數據的清洗與整理。此外,還需對代碼、文本、圖像、時間序列和二進制等各類格式的數據進行解析與分塊處理。
這一系列需求推動團隊采用中心化數據湖和向量化數據庫,取代臨時的文件共享方式,數據管理的核心也逐漸轉向機器可讀取性和數據檢索效率。這也解釋了為何如今人工智能設計領域的數管工作熱度飆升 —— 而就在一年前,行業的關注重點還停留在可利用的人工智能工具類型上。
是德科技電子設計自動化事業部知識產權與數據管理業務總經理西蒙?蘭斯表示:“彼時企業們提出的問題是,‘為了融入并利用人工智能,我們需要在方法論或設計流程上做出哪些調整?’他們也在思考如何訓練人工智能模型。如今我看到,企業們已經從單純的思考轉向實際落地,過程中卻遭遇了諸多挑戰:數據安全如何保障?算力是否充足?人工智能計算的能耗難題該如何解決?人們如今也開始逐漸了解人工智能幻覺現象及其成因,希望找到緩解或減少該問題的方法。當下行業的關注重點大量集中在數據安全上,相較于研發語言模型或研究模型訓練方法,數據編排的優先級已大幅提升。很多企業曾想一步到位,但如果基礎工作做不好,后續處處都會碰壁 —— 如今不少企業正陷入這樣的困境,某種程度上甚至陷入了停滯。這并非單一問題,而是會引發一系列連鎖反應。”
業內其他人士也持相同觀點。西門子電子設計自動化事業部生成式人工智能產品群經理尼蘭詹?西塔普雷稱:“分析人工智能設計對數據管理的影響,主要需區分兩個維度:一是訓練新的人工智能模型、大語言模型或微調現有模型,這是第一類場景;二是采用檢索增強生成技術,這類場景無需訓練或微調模型,卻仍能利用企業已有數據。而對半導體設計而言,還有尤為重要的第三個維度 —— 前兩類場景中普遍存在的數據格式問題。通常來說,ChatGPT-5、谷歌雙子星等大語言模型在文本處理、代碼編寫和圖像生成等多模態任務上表現出色,這是因為它們基于互聯網海量的同類格式知識完成了訓練。但在電子設計自動化領域,盡管也涉及代碼、文本和部分圖像,情況卻截然不同:我們的代碼具有高度專有性,還存在 SPRF 這類專屬語言,部分電子設計自動化工具甚至有自己的語法規則,且這些內容均未公開,即便是 GPT-5 或最新的模型,也無法掌握這類信息,這成為一大難題。此外,部分電子設計自動化數據的格式并非機器可讀取,即便包含圖像和表格,也絕非汽車、自然風光這類普通圖像,而是極為復雜的電路圖。無論是原理圖還是可視化電路圖,當前的人工智能模型都難以準確理解其中的設計邏輯。”
這一現狀直接影響到模型微調和檢索增強生成這兩大核心場景。
西塔普雷指出:“在模型微調方面,現有模型缺乏電子設計自動化相關數據支撐,因此它們或許能出色編寫 Python 代碼、解答光刻技術的通用問題,卻無法深入理解電路的底層設計邏輯。另一大問題是,模型微調需要海量數據,而大量芯片設計數據并不掌握在電子設計自動化廠商手中,而是由客戶持有,晶圓代工廠也不會將這類數據公開。這就形成了一個尷尬的局面:若要對當前最先進的模型進行微調,企業既要解決電子設計自動化文件格式帶來的數據解析難題,又要面對公開數據資源不足的問題。而在檢索增強生成場景中,舉個例子,當你使用 GPT-5 時,若在一款設計規則檢查工具中打開了某個設計方案,想要弄清設計中的問題,或是通過日志文件排查錯誤,這類場景下的數管工作,相較于前兩者會更易操作、流程也更簡潔。”
工程團隊主要通過兩種方式應對上述問題。西塔普雷解釋道:“第一種是為全量數據配備智能輔助工具,實現與檢索增強生成技術的結合。企業會提出需求:‘請為我們提供人工智能模型,以及配套的基礎設施,包括檢索增強生成數據流管道、便捷的圖形用戶界面,讓我們能夠便捷地進行問題查詢等操作。’本質上,這就是電子設計自動化領域的 ChatGPT。”
他還提到,部分企業希望擁有自研的微調人工智能模型,因此會尋求相關技術支持:“這些企業會說,‘我們的數據分布在各個節點,能否協助我們搭建微調或訓練管道,實現對不同設計方案的 SPICE 仿真?如此一來,每次完成仿真后,我們就能通過日志文件或仿真文件獲取耗時、網表規模、錯誤類型等信息,再搭建一個能理解這些數據的本地人工智能 / 機器學習模型。’針對這類客戶的特定設計需求,該模型可實現精準預測:例如運行某一網表將耗時多久、占用多少內存,或是基于現有數據預估設計的功耗、性能、面積(PPA)指標。”
目前,電子設計自動化工具廠商已向用戶開放了相關技術。用戶會先搭建自有數據湖,將標準操作流程、操作手冊、設計方案等各類信息盡可能地進行中心化整合,并處理為機器可讀取格式;隨后可提出需求,將這些數據遷移至電子設計自動化廠商的人工智能服務基礎設施中。整個過程中,數據始終保持本地部署且完全物理隔離,在保障數據安全的同時,也能精準匹配用戶的實際業務需求。
換言之,人工智能芯片與系統設計正推動數據管理實現轉型:從孤立的、基于文件的結果存儲,升級為云原生的大數據基礎設施。這一新型基礎設施可承載跨物理場的只讀存儲器(ROM)和大型物理模型,減少高成本的數據遷移操作,并最終將設計階段和運行階段的數據整合至統一的、可擴展的系統中。
已有企業將大數據技術應用于芯片設計,搭建了專屬的數據基礎設施。2015 年被安世科收購、如今成為新思科技旗下 Seascape 數據庫的吉爾設計解決方案公司,就是其中的代表。新思科技產品營銷總監馬克?斯溫寧表示:“我們對多款工具進行了重寫,使其能基于 Seascape 基礎設施運行;借助 MapReduce 等大數據技術,部分工具已實現原生云部署。在電子設計自動化領域,傳統模式是先開發數據庫或工具,再思考‘如何將其部署至云端’,而吉爾設計解決方案公司創始人約翰?李則反其道而行之 —— 秉持云原生優先的理念,再讓算法適配云端環境。例如,你可以讓一款工具定位電壓降位置,讓另一款工具獲取電流數據,再要求兩款工具完成數據疊加。當兩款工具均基于 Seascape 運行時,就能通過 MapReduce 方法完成數據排序、關聯與疊加,實現傳統系統無法做到的海量數據融合與聯合分析。”
工程數據具備極高價值,但直至近期,其管理仍面臨高風險、低規范的問題。芯片智能體公司首席執行官威廉?王表示:“寄存器傳輸級代碼(RTL)、設計規格、波形圖、日志文件和工程變更指令(ECO)歷史記錄等數據,具有高度的敏感性,且分布零散、難以審計。當前的行業瓶頸并非模型質量,而是數據質量 —— 無論模型規模多大,錯誤的上下文信息都會導致智能體輸出無效結果。這意味著,數據的安全性和溯源性比規模更重要。用戶關注的并非大數據本身,而是數據的來源、訪問權限和處理模型。”
為解決數據質量、安全和溯源問題,威廉?王指出,嵌入工作流程的數管治理模式已落地并取得良好效果 —— 數據管理必須融入工程工作流程,而非獨立于外部平臺。“鑒于設計規格、寄存器傳輸級模塊、波形圖等每一項設計成果都需要明確歸屬、溯源路徑和訪問權限,數據的溯源性和訪問控制必須成為默認配置。如今也可通過智能體實現數據的中介訪問,由智能體自動執行訪問權限管控,明確不同主體的查看范圍和安全使用邊界。”
這一切的實現,都依賴于對數據進行有效組織的能力,而隨著數據量的持續增長,這一工作的難度也不斷加大。弗勞恩霍夫應用固體物理研究所 / 電子與系統工程研究所研究員馬丁?諾伊曼 - 基平表示:“如今談及人工智能,我們必須摒棄‘單靠大數據就能解決問題’的觀念,大數據的熱潮已開始消退,單純收集海量數據不再是制勝法寶。我們真正需要的是可解析數據—— 即描述清晰、關聯緊密、置于正確上下文環境中的數據。多數企業的問題并非數據不足,而是數據被孤立在各個‘信息孤島’中:質量數據僅質量保證團隊可見,生產數據僅生產部門可接觸,文檔資料僅工程團隊能訪問,諸如此類。這些孤島數據本身具備價值,但真正的潛力在于將其關聯整合,從整體視角看待生產系統 —— 唯有如此,才能搭建起真正的企業系統知識庫。”
對于生成式人工智能在內的優質人工智能解決方案而言,僅僅 “擁有數據” 遠遠不夠。諾伊曼 - 基平稱:“必須精準掌握數據的實際含義,為數據添加語義描述、構建本體論體系,并建立統一的數據語言。這也是我們研究知識圖譜、在現有系統之上搭建智能數據層的原因。企業當前的數據管理系統可作為良好基礎,但需要通過語義層實現跨數據源的信息關聯。一旦完成這一搭建,就能在其基礎上開發更強大的人工智能應用,包括智能體系統。因此,人工智能時代的數管工作并非一個獨立議題,而是發展人工智能的先決條件。若不在數據的描述、結構化和關聯整合上投入精力,企業的人工智能應用將始終局限于狹隘的、局部的優化;而若將數據視為全系統數字孿生的一部分,就能實現對整個業務流程的優化,而非僅針對單個環節。這正是我眼中人工智能在工業領域的真正長期價值所在。”
崗位新需求:電子設計自動化數據管理員
幾年前,英偉達首席執行官黃仁勛曾預言,未來工程師將成為人工智能智能體的管理者。與此相契合,電子設計自動化數據管理員這一崗位的需求正持續增長,其核心職責是確保數據格式標準化、搭配規范的元數據、存儲于指定目錄、配置合理的訪問權限等。
西門子的西塔普雷表示:“我們需要為特定項目匹配精準的數據,搭配規范的元數據和合理的訪問控制,建立清晰的信息關聯,以及基于本體論的知識圖譜以明確數據溯源。這一崗位的重要性與日俱增,盡管它處于設計流程的后端,看似并非核心崗位,實則是奠定行業發展基礎的關鍵崗位。企業需要專人負責這項工作,并進行大量投入。從企業級人工智能的視角來看 —— 不僅是電子設計自動化領域,而是全行業 —— 都需要持續加大對數據管理結構化的投入,因為若忽視這一點,最終只會陷入‘垃圾進,垃圾出’的困境。”
企業的數據往往高度分散,規模較大的企業或有并購、被并購經歷的企業,這一問題更為突出。是德科技的蘭斯稱:“這些企業的數據分散在各類數據管理系統中,部分團隊甚至未使用專業數管系統,而是借助康 fluence、SharePoint 文件服務器等工具,導致數據缺乏索引、編目和版本控制。企業內部其他部門則可能使用完全不同的系統,數據存儲在另一處。當企業內遍布這些孤立的數據碎片時,問題便接踵而至:若繼續放任數據分散,人工智能應用將面臨延遲問題,數據也可能出現重復存儲的情況。而數據質量、存儲位置、可訪問性,以及快速獲取、讀取、利用、編排數據并推進后續任務的算力和系統能力,都會引發人工智能幻覺現象,這一系列問題還會產生連鎖反應。事實上,數據查找困難和數據質量低下,是諸多問題的根源。過去,企業常說:‘我們知道各處都有數據,卻沒有數據工程師來做數據整理工作。’這是最大的挑戰 —— 彼時行業內甚至沒有對應的崗位設置。而如今,企業不僅需要增設相關崗位,還需組建數據治理團隊,負責制定數據結構化方案、明確數據存儲位置、確立數據的單一可信來源、搭建數據訪問和加密的安全體系,防止數據泄露,同時明確數據的運行硬件環境。”
過去,大量數據管理工作和數據系統都運行在通用服務器或工作站上。但要真正發揮模型訓練、推理和工作流編排的價值,數據必須部署在高性能計算機上,才能實現數據的快速訪問、處理和回寫,并及時獲取運算結果。蘭斯表示:“底層還存在信息技術和基礎設施的問題,而這些問題在過去并未凸顯。如今,隨著行業高度關注模型的研發與管理,企業才意識到,他們甚至無法推進后續工作 —— 因為必須先完成數據整理,優化數據存儲、算力資源和數據安全體系。即便打好了這些基礎,企業還將面臨確立數據單一可信來源的新挑戰。此外,如何為設計流程中從未有過的數據類型進行補充,也是一大難題。過去,設計流程中僅有測試數據、設計數據、驗證數據、文檔和規格說明,從未留存模型文件和測試結果,這些數據通常會被直接丟棄,仿真運行記錄也不例外。但如今,仿真運行記錄需要為機器學習提供支撐,這就導致數據量進一步激增,而企業現有的信息技術服務器,原本并未針對海量數據存儲進行配置。”
向新型數據管理思維轉型,還帶來了獨特的組織架構挑戰。蘭斯稱:“過去,我們的合作對象主要是工程師、架構師、計算機輔助設計團隊和工程管理人員,而如今,信息技術團隊、計算機輔助設計團隊、安全工程師和安全專家都成為了核心合作方。我們甚至發現,面對大型客戶和大型機構時,他們還會讓法務團隊介入,評估特定數據的風險、制定數據分類標準,確保受出口管制的信息,不會在機器學習模型的訓練過程中被利用,尤其是當模型需要部署至特定地區時。這些工作過去由不同團隊在后臺獨立完成,且并非時間敏感型任務,但如今都需要進行專業評估。參與整體解決方案評估的人員范圍大幅擴大,這無疑讓工作變得更為復雜。”











評論