av高清在线观看_春暖花开亚洲_久99久精品视频免费观看_先锋影音av资源网

  • 產(chǎn)品|
  • 采購|
  • 企業(yè)|
  • 資訊|
  • 展會(huì)|

客服QQ:544721284

您所在的位置:首頁 > 資訊 > 分析預(yù)測 > 數(shù)據(jù)建模中分類與預(yù)測模型

數(shù)據(jù)建模中分類與預(yù)測模型

日期: 2021-03-30 瀏覽人數(shù): 146 來源: 編輯:

分享到:
核心提示:  隨著計(jì)算機(jī)技術(shù)的興起,當(dāng)前社會(huì)已經(jīng)進(jìn)入大數(shù)據(jù)信息時(shí)代。資本市場隨著投資者的不斷涌入以及金融科技的不斷發(fā)展,交易時(shí)所涉

  隨著計(jì)算機(jī)技術(shù)的興起,當(dāng)前社會(huì)已經(jīng)進(jìn)入大數(shù)據(jù)信息時(shí)代。資本市場隨著投資者的不斷涌入以及金融科技的不斷發(fā)展,交易時(shí)所涉及到的信息也逐漸繁雜。如果還是利用過往的分析模式,個(gè)人的力量就顯得愈加薄弱。因此,利用量化平臺(tái)對(duì)多元化的數(shù)據(jù)進(jìn)行提取,按照自身的分析模式搭建合理化的分析框架,自動(dòng)化的得到針對(duì)基本面、技術(shù)面的分析結(jié)果的分析方法也開始逐漸火熱起來,這個(gè)結(jié)果根據(jù)需求既可以是定量的,也可以是定性的,目前這種量化建模的方式也已經(jīng)在眾多私募券商等中應(yīng)用已久,但是對(duì)于大多數(shù)個(gè)體投資者而言,還是一個(gè)十分陌生的領(lǐng)域。 因此,本文基于上期數(shù)據(jù)預(yù)處理部分之后,介紹如何在清洗過后的數(shù)據(jù)基礎(chǔ)之上建立分類與預(yù)測模型,為此種模型的構(gòu)建方法進(jìn)行簡單介紹,輔助投資者對(duì)自身分析邏輯中的分析框架進(jìn)行量化分析,方便其多元化的交易分析。

  數(shù)據(jù)建模中分類與預(yù)測模型主要是尋求合適的分類模型并在此基礎(chǔ)之上進(jìn)行未來預(yù)測。分類主要是預(yù)測分類標(biāo)號(hào)(離散屬性),通俗點(diǎn)而言就像在基本面分析中判定哪些是未來影響價(jià)格的因素,比如產(chǎn)量、季節(jié)因素、下游產(chǎn)品價(jià)格等,這些因素除了其自身屬性的不同外還應(yīng)該具備在同級(jí)影響因素中具備較低的相關(guān)性,也就是最終分類的因素都會(huì)對(duì)價(jià)格進(jìn)行影響,但是彼此之間的影響相對(duì)較小。而預(yù)測主要就是建立連續(xù)值函數(shù)模型,預(yù)測給定自變量對(duì)應(yīng)的因變量的值。

  分類算法有兩步過程:第一步是學(xué)習(xí)步,通過歸納分析訓(xùn)練樣本集來建立分類模型得到分類規(guī)則;第二步是分類步,先用已知的測試樣本集評(píng)估分類規(guī)則的準(zhǔn)確率,如果準(zhǔn)確率是可以接受的,則使用該模型對(duì)未知類標(biāo)號(hào)的待測樣本集進(jìn)行預(yù)測。

  常見的分類與預(yù)測算法如表1所示。由于對(duì)于新入學(xué)者而言,掌握人工神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、支持向量機(jī)三種模型所要求的數(shù)理統(tǒng)計(jì)算法難度較高,牽扯到的數(shù)理知識(shí)也較為復(fù)雜,因此本文后面在介紹分類模型時(shí)主要介紹回歸分析與決策樹。

  回歸分析是通過建立模型來研究變量之間相互關(guān)系的密切程度、結(jié)構(gòu)狀態(tài)及進(jìn)行模型預(yù)測的一種有效工具,在工商管理、經(jīng)濟(jì)、社會(huì)、醫(yī)學(xué)和生物學(xué)等領(lǐng)域應(yīng)用十分廣泛。從19世紀(jì)初高斯提出最小二乘估計(jì)起,回歸分析的歷史已有200多年。從經(jīng)典的回歸分析方法到近代的回歸分析方法,按照研究方法劃分,回歸分析研究的范圍大致如表2所示。

  Logistic回歸屬于概率型非線性回歸,分為二分類和多分類的回歸模型。對(duì)于二分類的Logistic回歸,因變量y只有“是”、“否”兩個(gè)取值,記為1和0。假設(shè)在自變量x1,x2,…,xn作用下,y取“是”的概率是p,則取“否”的概率是1-p,研究的是當(dāng)y取“是”發(fā)生的概率p與自變量x1,x2,…,xn的關(guān)系。

  決策樹方法在分類、預(yù)測、規(guī)則提取等領(lǐng)域有著廣泛應(yīng)用。20世紀(jì)70年代后期和80年代初期,機(jī)器學(xué)習(xí)研究者J.Ross Quinlan提出了ID3算法以后,決策樹在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘領(lǐng)域得到極大的發(fā)展。Quinlan后來又提出了C4.5,成為新的監(jiān)督學(xué)習(xí)算法。1984年,記為統(tǒng)計(jì)學(xué)家提出了CART分類算法。ID3和CART算法幾乎同時(shí)被提出,但都是采用類似的方法從訓(xùn)練樣本中學(xué)習(xí)決策樹。

  決策樹是一種線性結(jié)構(gòu),它的每一個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)著一個(gè)分類,非葉節(jié)點(diǎn)對(duì)應(yīng)著在某個(gè)屬性上的劃分,根據(jù)樣本在該屬性上的不同取值將其劃分成若干個(gè)子集。對(duì)于非純的葉節(jié)點(diǎn),多數(shù)類的標(biāo)號(hào)給出到達(dá)這個(gè)節(jié)點(diǎn)的樣本所屬的類。構(gòu)造決策樹的核心問題是在每一步如何選擇適當(dāng)?shù)膶傩詫?duì)樣本做拆分。對(duì)一個(gè)分類問題,從已知類標(biāo)記的訓(xùn)練樣本中學(xué)習(xí)并構(gòu)造出決策樹是一個(gè)自上而下,分而治之的過程。

  分類與預(yù)測模型對(duì)訓(xùn)練集進(jìn)行預(yù)測而得到的準(zhǔn)確率并不能很好地反映預(yù)測模型未來的性能,為了有效判斷一個(gè)預(yù)測模型的性能表現(xiàn),需要一組沒有參與預(yù)測模型建立的數(shù)據(jù)集,并在該數(shù)據(jù)集上評(píng)價(jià)預(yù)測模型的準(zhǔn)確率,這組獨(dú)立的數(shù)據(jù)集叫做測試集。模型預(yù)測效果評(píng)價(jià),通常用相對(duì)/絕對(duì)誤差、平均絕對(duì)誤差、均方誤差、均方根誤差、Kappa統(tǒng)計(jì)等指標(biāo)來衡量。

  【徽商期貨有限責(zé)任公司月度分析報(bào)告由徽商期貨研究所組織撰寫,供業(yè)務(wù)人員及在徽商期貨進(jìn)行期貨交易的投資者參考。盡管本刊所載信息我們認(rèn)為是由可靠來源取得或編制,徽商期貨并不保證本刊所載信息或數(shù)據(jù)的準(zhǔn)確性、有效性或完整性。本刊所載資料不應(yīng)視為閣下對(duì)任何期貨商品交易的直接依據(jù)。在選擇期貨投資以及對(duì)期貨商品做出交易決策之前,建議向徽商期貨專業(yè)人士咨詢。未經(jīng)徽商期貨授權(quán),任何人不得以任何形式將本刊內(nèi)容全部或部分發(fā)布、復(fù)制。】

免責(zé)聲明:
本網(wǎng)站部分內(nèi)容來源于合作媒體、企業(yè)機(jī)構(gòu)、網(wǎng)友提供和互聯(lián)網(wǎng)的公開資料等,僅供參考。本網(wǎng)站對(duì)站內(nèi)所有資訊的內(nèi)容、觀點(diǎn)保持中立,不對(duì)內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。如果有侵權(quán)等問題,請及時(shí)聯(lián)系我們,我們將在收到通知后第一時(shí)間妥善處理該部分內(nèi)容。

微信

關(guān)注地?cái)値?/b>官方微信賬號(hào):“ditanku”,每日獲得互聯(lián)網(wǎng)最前沿資訊,熱點(diǎn)產(chǎn)品深度分析!
關(guān)鍵詞: 幾種常見的預(yù)測模型
0條 [查看全部]  相關(guān)評(píng)論