隨著計(jì)算機(jī)技術(shù)的興起,當(dāng)前社會(huì)已經(jīng)進(jìn)入大數(shù)據(jù)信息時(shí)代。資本市場隨著投資者的不斷涌入以及金融科技的不斷發(fā)展,交易時(shí)所涉及到的信息也逐漸繁雜。如果還是利用過往的分析模式,個(gè)人的力量就顯得愈加薄弱。因此,利用量化平臺(tái)對(duì)多元化的數(shù)據(jù)進(jìn)行提取,按照自身的分析模式搭建合理化的分析框架,自動(dòng)化的得到針對(duì)基本面、技術(shù)面的分析結(jié)果的分析方法也開始逐漸火熱起來,這個(gè)結(jié)果根據(jù)需求既可以是定量的,也可以是定性的,目前這種量化建模的方式也已經(jīng)在眾多私募券商等中應(yīng)用已久,但是對(duì)于大多數(shù)個(gè)體投資者而言,還是一個(gè)十分陌生的領(lǐng)域。 因此,本文基于上期數(shù)據(jù)預(yù)處理部分之后,介紹如何在清洗過后的數(shù)據(jù)基礎(chǔ)之上建立分類與預(yù)測模型,為此種模型的構(gòu)建方法進(jìn)行簡單介紹,輔助投資者對(duì)自身分析邏輯中的分析框架進(jìn)行量化分析,方便其多元化的交易分析。
數(shù)據(jù)建模中分類與預(yù)測模型主要是尋求合適的分類模型并在此基礎(chǔ)之上進(jìn)行未來預(yù)測。分類主要是預(yù)測分類標(biāo)號(hào)(離散屬性),通俗點(diǎn)而言就像在基本面分析中判定哪些是未來影響價(jià)格的因素,比如產(chǎn)量、季節(jié)因素、下游產(chǎn)品價(jià)格等,這些因素除了其自身屬性的不同外還應(yīng)該具備在同級(jí)影響因素中具備較低的相關(guān)性,也就是最終分類的因素都會(huì)對(duì)價(jià)格進(jìn)行影響,但是彼此之間的影響相對(duì)較小。而預(yù)測主要就是建立連續(xù)值函數(shù)模型,預(yù)測給定自變量對(duì)應(yīng)的因變量的值。
分類算法有兩步過程:第一步是學(xué)習(xí)步,通過歸納分析訓(xùn)練樣本集來建立分類模型得到分類規(guī)則;第二步是分類步,先用已知的測試樣本集評(píng)估分類規(guī)則的準(zhǔn)確率,如果準(zhǔn)確率是可以接受的,則使用該模型對(duì)未知類標(biāo)號(hào)的待測樣本集進(jìn)行預(yù)測。
常見的分類與預(yù)測算法如表1所示。由于對(duì)于新入學(xué)者而言,掌握人工神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、支持向量機(jī)三種模型所要求的數(shù)理統(tǒng)計(jì)算法難度較高,牽扯到的數(shù)理知識(shí)也較為復(fù)雜,因此本文后面在介紹分類模型時(shí)主要介紹回歸分析與決策樹。
回歸分析是通過建立模型來研究變量之間相互關(guān)系的密切程度、結(jié)構(gòu)狀態(tài)及進(jìn)行模型預(yù)測的一種有效工具,在工商管理、經(jīng)濟(jì)、社會(huì)、醫(yī)學(xué)和生物學(xué)等領(lǐng)域應(yīng)用十分廣泛。從19世紀(jì)初高斯提出最小二乘估計(jì)起,回歸分析的歷史已有200多年。從經(jīng)典的回歸分析方法到近代的回歸分析方法,按照研究方法劃分,回歸分析研究的范圍大致如表2所示。
Logistic回歸屬于概率型非線性回歸,分為二分類和多分類的回歸模型。對(duì)于二分類的Logistic回歸,因變量y只有“是”、“否”兩個(gè)取值,記為1和0。假設(shè)在自變量x1,x2,…,xn作用下,y取“是”的概率是p,則取“否”的概率是1-p,研究的是當(dāng)y取“是”發(fā)生的概率p與自變量x1,x2,…,xn的關(guān)系。
決策樹方法在分類、預(yù)測、規(guī)則提取等領(lǐng)域有著廣泛應(yīng)用。20世紀(jì)70年代后期和80年代初期,機(jī)器學(xué)習(xí)研究者J.Ross Quinlan提出了ID3算法以后,決策樹在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘領(lǐng)域得到極大的發(fā)展。Quinlan后來又提出了C4.5,成為新的監(jiān)督學(xué)習(xí)算法。1984年,記為統(tǒng)計(jì)學(xué)家提出了CART分類算法。ID3和CART算法幾乎同時(shí)被提出,但都是采用類似的方法從訓(xùn)練樣本中學(xué)習(xí)決策樹。
決策樹是一種線性結(jié)構(gòu),它的每一個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)著一個(gè)分類,非葉節(jié)點(diǎn)對(duì)應(yīng)著在某個(gè)屬性上的劃分,根據(jù)樣本在該屬性上的不同取值將其劃分成若干個(gè)子集。對(duì)于非純的葉節(jié)點(diǎn),多數(shù)類的標(biāo)號(hào)給出到達(dá)這個(gè)節(jié)點(diǎn)的樣本所屬的類。構(gòu)造決策樹的核心問題是在每一步如何選擇適當(dāng)?shù)膶傩詫?duì)樣本做拆分。對(duì)一個(gè)分類問題,從已知類標(biāo)記的訓(xùn)練樣本中學(xué)習(xí)并構(gòu)造出決策樹是一個(gè)自上而下,分而治之的過程。
分類與預(yù)測模型對(duì)訓(xùn)練集進(jìn)行預(yù)測而得到的準(zhǔn)確率并不能很好地反映預(yù)測模型未來的性能,為了有效判斷一個(gè)預(yù)測模型的性能表現(xiàn),需要一組沒有參與預(yù)測模型建立的數(shù)據(jù)集,并在該數(shù)據(jù)集上評(píng)價(jià)預(yù)測模型的準(zhǔn)確率,這組獨(dú)立的數(shù)據(jù)集叫做測試集。模型預(yù)測效果評(píng)價(jià),通常用相對(duì)/絕對(duì)誤差、平均絕對(duì)誤差、均方誤差、均方根誤差、Kappa統(tǒng)計(jì)等指標(biāo)來衡量。
【徽商期貨有限責(zé)任公司月度分析報(bào)告由徽商期貨研究所組織撰寫,供業(yè)務(wù)人員及在徽商期貨進(jìn)行期貨交易的投資者參考。盡管本刊所載信息我們認(rèn)為是由可靠來源取得或編制,徽商期貨并不保證本刊所載信息或數(shù)據(jù)的準(zhǔn)確性、有效性或完整性。本刊所載資料不應(yīng)視為閣下對(duì)任何期貨商品交易的直接依據(jù)。在選擇期貨投資以及對(duì)期貨商品做出交易決策之前,建議向徽商期貨專業(yè)人士咨詢。未經(jīng)徽商期貨授權(quán),任何人不得以任何形式將本刊內(nèi)容全部或部分發(fā)布、復(fù)制。】