來源: http://www.gelonghui.com/portal.php?mod=view&aid=2800

新聞聯播帶你飛:新聞聯播情緒指標的構建和運用
作者:夏瀟陽歷史總是驚人的相似,我們通過測算每天新聞聯播出現的熱詞在歷史上出現時,未來大盤的表現來構建新聞聯播情緒指標,對以此對市場進行擇時判斷。

新聞聯播是一個典型的小數據,從去年到今年,我們越來越感受到新聞聯播中蘊含了不少投資機會,也經常聽人說:“跟著新聞聯播炒股有肉吃”。

新聞聯播每天晚上 20 點左右會在其官網披露每日新聞聯播節目的全部內容,官方會披露每篇文章的熱詞,我們只需要對其披露的熱詞進行簡單的抓取分析和分類整理。

歷史總是驚人的相似,我們希望判斷,每天新聞聯播出現的熱詞在歷史上出現時,未來大盤的表現。

對於每日新聞聯播的第 i 個熱詞,只要該熱詞不是首次出現,我們把在該日之前出現同樣的熱詞時,下一個交易日滬深 300 指數的表現定義為P,並計算Ranki=mean(Pi)。每日新聞聯播情緒指標 S=mean(Ranki)。

由於新聞聯播情緒指標波動劇烈,我們使用新聞聯播情緒指標 30 日均線對滬深 300 指數擇時:新聞聯播情緒指標 30 日均線從高點回落 1.0,指標看空;新聞聯播情緒指標 30 日均線從低點回升 0.5,指標看多。

我們在信號發出後下個交易日開盤時開倉,開倉後,某日收盤時虧損 5%以上即止損。截止 2015/05/31,模型大賺 5 次,小賺 4 次 ,持平 5 次,小虧 4次,大虧(止損)4 次。

一、新聞聯播背後的秘密
在介紹新聞聯播數據源之前,我們首先介紹一下大數據與小數據的區別:

大數據的一大特點是專有數據源,數據供應商往往運用這些獨特的專有數據源,結合其它指標,構建策略指數,並通過與基金公司合作發產品的形式呈現給投資者。典型的案例包括:百度與廣發基金、新浪與南方基金以及阿里與博時基金。

而小數據的一大特點是公開數據源,我們通過網絡文本挖掘的方法抓取這些公開數據,並依此構建投資策略。小數據雖然是公開數據,但往往數據指向性強,邏輯清晰,適合構建量化模型。


新聞聯播就是一個典型的小數據,從去年到今年,我們越來越感受到新聞聯播中蘊含了不少投資機會,也經常聽人說:“跟著新聞聯播炒股有肉吃”。例如,今年的 4 月 21 日晚上,新聞聯播播出了《廣東 天津福建自貿試驗區今天掛牌》的新聞,次日,福建自貿區龍頭象嶼股份平開高走,上漲 9.45%。
不過這樣的案例有一定的巧合成分,而且一天的行情較難捕捉,我們再舉一個時間長一點的例子:新聞聯播從今年 4 月 9 日開始持續宣傳“一帶一路”,並於 4 月 19 日暫停宣傳。而“一帶一路”概念的龍頭股——中國南車和中國北車從 4 月 9 日起打開漲停啟動一輪翻倍行情,並從 4 月 20 日起開始調整,調整幅度超過 25%。
不過,這樣的案例依然存在巧合的成分,且後續新聞聯播也零星地宣傳過“一帶一路”,但中國南車和中國北車在停牌前也沒有明顯的反彈。此外,如何在 4 月 9 日新聞聯播第一天宣傳“一帶一路”的時候就判斷這樣的宣傳有一定持續性,也是一個難點。

通過前面兩個案例,我們可以感受到,新聞聯播中蘊含了不少個股和板塊的投資機會,但這樣的投資機會很難捕捉,更難以量化。因此,從量化的角度,我們退而求其次,試圖構建一個新聞聯播情緒指標。

二、新聞聯播數據的采集

新聞聯播每天晚上 20 點左右會在其官網披露每日新聞聯播節目的全部內容,其網址格式為:http://cctv.cntv.cn/lm/xinwenlianbo/yyyymmdd.shtml,其中 yyyymmdd 為 8 位日
期格式。

我們對新聞聯播的每一條新聞進行讀取分析,如當日出現“新聞聯播完整版視頻”,我們須進行剔除。

接著,我們對每篇文章抓取相應的熱詞,新聞聯播官方會披露每篇文章的熱詞,我們只需要對其披露的熱詞進行簡單的抓取分析和分類整理。
我們剔除明顯無關的熱詞,如視頻、點播、央視網、新聞聯播、聯播快訊等。剔除後,熱度前 40 名的熱詞如下:
三、新聞聯播情緒指標

歷史總是驚人的相似,我們希望判斷,每天新聞聯播出現的熱詞在歷史上出現時,未來大盤的表現。這里,“未來大盤的表現”蘊含了三層含義:

1. 未來:我們相信,新聞聯播如果對市場有影響,最直接的影響應該是一個交易日。因此我們考察下一個交易日大盤的表現;

2. 大盤:我們相信,新聞聯播應該和大盤類指數相關性更密切一些,我們測算出來的結果也驗證了這一點。因此,我們選擇滬深 300 指數作為考察目標;

3. 表現:我們認為,收益率不是刻畫大盤表現的最好方式。舉個例子:假如有兩個交易日,大盤的收益率分別為 0.3%和 0.2%,不能認為第一天大盤的收益率是第二天的 1.5 倍,事實上兩者都處於走平的範圍。因此,我們將滬深 300 指數一天的表現定義為 P,我們假設滬深 300 指數收益率為 R,定義參數 a=1.5%和 b=0.5%:

a) R<=-a 時,P=0,天數占比約為 9.73%
b) -a<R<=-b 時,P=25,天數占比約為 21.39%
c) -b<R<b 時,P=50,天數占比約為 38.50%
d) b<=R<a 時,P=75,天數占比約為 18.18%
e) R>=a 時,P=100,天數占比約為 12.19%

對於每日新聞聯播的第 i 個熱詞,只要該熱詞不是首次出現,我們把在該日之前出現同樣的熱詞時,下一個交易日滬深 300 指數的表現定義為P,並計算 Ranki=mean(Pi)。每日新聞聯播情緒指標 S=mean(Ranki)。

由於新聞聯播情緒指標波動劇烈,我們對其取 30 日均線,新聞聯播情緒指標及其30日均線的走勢如下:
我們使用新聞聯播情緒指標30 日均線對滬深 300 指數擇時:新聞聯播情緒指標 30 日均線從高點回落 1.0,指標看空;新聞聯播情緒指標 30日均線從低點回升 0.5,指標看多。
我們在信號發出後下個交易日開盤時開倉,開倉後,某日收盤時虧損 5%以上即止損。截止 2015/05/31,模型大賺 5 次,小賺 4 次 ,持平 5 次,小虧 4 次,大虧(止損)4次。

風險提示

本文中所引入的假設以及基於假設所構建的模型,均是對所要研究問題的主要矛盾以及矛盾主要方面的一種抽象,因此模型以及基於模型所得出的相關結論並不能完全準確的刻畫現實環境與預測未來。(來自招商證券)


格隆匯聲明: 本文為格隆匯轉載文章,不代表格隆匯觀點。格隆匯作為免費、開放、共享的16億中國人海外投資研究交流平臺,並未持有任何公司股票。