大數據

寄云DAStudio工業數據分析建模平臺實戰:軟測量應用

2025China.cn   2021年06月15日

  本期,我們將進一步深入了解“軟測量”,借助寄云科技DAStudio工業數據分析建模平臺,詳細展示一個具體的軟測量建模案例:通過光譜數據估算汽油辛烷值的軟測量建模分析的全部過程,了解軟測量模型是如何幫助企業挖掘數據價值,持續優化生產。

  【背景】:

  辛烷值是用于表征汽油抗爆性的指標,汽油的辛烷(Octane)值越高,抗爆性就越好,就能用于壓縮比高的發動機。汽油的辛烷值每提高一個單位就可以減少油耗0.7%-3.1%。汽油的不同辛烷值決定了其價格高低。由于缺乏在線分析儀表,在生產中采用人工采樣分析得到重整產品的辛烷值,通常情況下每次從采樣到最終結果出來要經過幾個小時,每隔10天左右分析1次,這顯然不利于生產控制。因此,有必要應用軟測量技術,建立軟測量模型,用于汽油辛烷值的估算,從而快速檢驗產品質量、指導生產操作。

  數據概況:

  60 個汽油樣本的近紅外光譜及其辛烷值的數據集,其中光譜包括了401維波長的光譜強度。(采用公開數據集,來源的參考文獻)

  方法:

  由于汽油辛烷值的影響因素較多,且各參數間(不同波長下的光譜強度)存在相關性,樣本個數又較少,因此本例將采用主成分回歸 (PCR)進行建模,并討論這種方法的有效性。

  當存在大量預測變量(自變量)并且它們高度相關甚至多重共線時,PLSR 和 PCR 都可以作為建模和預測響應變量(因變量)的方法。這兩種方法都通過原始自變量的線性組合,構建新的自變量(稱為成分),但它們構建這些成分的方式不同。PCR構建的成分,能最大程度的解釋自變量觀測值的波動(即選取自變量方差最大的方向),而根本不考慮響應變量的情況。而 PLSR 在構建成分時,會考慮響應變量的影響,因此,常使模型能夠采用更少的成分擬合因變量。 從實際應用上來說,這種考慮能否最終導向產生更簡約的模型,要視具體情況(場景、數據)而定。

  查看其中一個樣本的各維光譜(不同波長)取值:

  接下來,擬合具有兩個主成分的 PCR 模型。第一步是使用 pca 函數對 X 進行主成分分析,并保留兩個主成分。然后,PCR 就只是響應變量對這兩個主成分的線性回歸。 當各個自變量擁有非常不同的變化程度、方差(very different amounts of variablity)時,比較通用的做法是,先對每個自變量進行歸一化(normalize each variable first by its standard deviation),但此處省略。

  首先,搭建DA分析工程如圖,需要注意的是,DA的PCA組件沒有做數據的中心化,因此需要先用“列歸一化”組件進行中心化處理(去除各列特征的均值)?;镜牟襟E是:

  ● 中心化

  ● PCA主成分分解

  ● 前2維主成分,聯合目標值y(辛烷值),進行線性回歸,訓練與預測,查看回歸效果

  主成分分析(PCA)后保留2個主成分的前幾個元素如下:

  之后,用散點圖觀察回歸的效果,橫軸是真實的目標值(辛烷值),縱軸是預測(軟測量)的辛烷值:

  觀察上圖中擬合值的散點圖可以看出,兩個成分的 PCR 對目標值的預測始終偏水平方向,并不比使用一個常量(例如87左右)去預測的效果更好?;貧w的 R 方值也證實了這一點,R方的值很低,遠離1,因此,該回歸模型對目標值方差的解釋程度并不高。

  一般來說,增加主成分的個數可以更好的擬合y,因為隨著成分個數的增加, X 中的大部分對預測y重要的信息都會陸續出現在新增的成分中。因此如下圖右側紅框中的工程分支,嘗試采用更多維的主成分進行回歸。例如,用10個主成分時,殘差遠小于使用2個成分時,均方誤差RMSE明顯下降,R方也接近1。

  再次比較真實值和預測值的散點圖,發現基本沿對角線方向。說明擬合效果較好。

  因此,可以采用光譜數據,利用PCR等軟測量建模分析技術,預測汽油中的辛烷值,減少樣品需要分析化驗的頻次。

  寄云DAStudio工業數據分析建模平臺

  寄云科技所打造的面向工程數據分析人員的全流程數據建模分析平臺,聚焦工業領域,對接海量工業數據源,快速構建數據模型和數據對象,支持拖放式、零代碼、敏捷式的算法模型開發,提供海量數據預處理、機器學習和人工智能建模分析以及模型在線部署能力,幫助工程技術人員快速從繁雜的數據中,通過智能的分析建模,挖掘數據價值。

標簽:寄云 DAStudio工業數據分析建模平臺 我要反饋 
2022年華南展
進博會
西克
專題報道
協作機器人制造業創新布局
協作機器人制造業創新布局

以減輕人類工作強度、替代傳統人工為己任,高效、智能、靈活的協作機器人已成為制造業的時代之選。然而,汽車零部件、3C電子、

AMR行業曙光期的新挑戰
AMR行業曙光期的新挑戰

受環境適應能力差、操作難等因素影響,AMR的實際部署和應用并不是一件容易的事。在AMR行業迎來發展曙光的關鍵時期,機器人

西門子:物聯網熱門用例
西門子:物聯網熱門用例

隨著互聯設備的數量持續迅猛增長,物聯網的用途也不再僅限于監控設備行為。物聯網的價值漸漸更多地來源于采集機器數據,以便找到

国产精品1区2区