數據挖掘技術在交通事故分析中的應用

作者：時間：2009-08-28 來源：網絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

(1)信息熵的計算
信息熵的計算公式為：

本文引用地址：http://cqxgywz.com/article/188701.htm

式中，i取值1、2，U分別表示有交通事故和無交通事故樣本，P(Ui)表示類別為Ui的樣本占樣本總數中的比例。
根據式(1)，信息熵H(U的計算算法為：

式中P(Vj)表示屬性A中取值為Vj的樣本占樣本總數的比例，P(Ui|Vj)表示屬性A取值Vj時，類別為Ui的概率。
例如，對于駕駛員年齡屬性，j的取值范圍是駕駛員的年齡范圍，約20～70；i的取值范圍仍是1、2，表示事故的有無。則駕駛員年齡屬性條件熵計算的具體算法為：

分別計算出決策屬性的互信息Gain(年齡)、Gain(駕齡)、Gain(性別)的數值，選擇互信息最大的屬性作為決策樹的根節點。依該屬性的取值作為分枝，每個分枝對應一個子集。對于每一個子集，重新計算其所含樣本的信息熵、條件熵和互信息，確定該子集的當前節點及其分枝，直到遍歷了所有的決策屬性，獲得全部的葉子節點。葉子節點的數值就是從決策樹根節點開始，沿相關路徑(分枝)到達葉子節點所包含的樣本集可能發生交通事故的概率。
這樣建立的決策樹及概率分布就把交通事故與駕駛員的關系清晰地表露出來，同樣，也可選擇其他挖掘主題如交通事故與機動車輛的關系、與天氣的關系等進行挖掘。

4 結語
經過多年的發展與積累，與交通管理相關的部門積累了大量的與交通安全相關的數據資源，充分利用這些數據資源，使其為促進經濟發展、創建和諧社會服務。數據挖掘技術是開發這些數據資源的有效手段，可以找出這些海量數據之間的內在的規律性的聯系，從而為相關部門或機構的宏觀決策提供技術支持。與其他相關研究不同．這里的工作基于對機動車駕駛員總體樣本的研究，結果會更真實可信，指導意義更強。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

數據挖掘技術在交通事故分析中的應用

評論

相關推薦

技術專區