當前位置:首頁 » 新股價格 » 股票幾年數據需要處理缺失值么

股票幾年數據需要處理缺失值么

發布時間: 2021-06-17 03:55:32

A. 時間序列數據有缺失值的時候怎麼辦

時間序列數據有缺失值的時候怎麼辦
用xtbalance命令平衡一下。再回歸。否則,你缺失的數據只有補齊,如果不能補齊,當然只有平衡一下了。

B. 缺失值在回歸前一般是要處理的,有多種處理方式.1均值替代;2多重補漏分析

(一)個案剔除法(Listwise Deletion)
最常見、最簡單的處理缺失數據的方法是用個案剔除法(listwise
deletion),也是很多統計(如SPSS和SAS)默認的缺失值處理方法。在這種方法中如果任何一個變數含有缺失數據的話,就把相對應的個案從分析中剔除。如果缺失值所佔比例比較小的話,這一方法十分有效。至於具體多大的缺失比例算是「小」比例,專家們意見也存在較大的差距。有學者認為應在5%以下,也有學者認為20%以下即可。然而,這種方法卻有很大的局限性。它是以減少樣本量來換取信息的完備,會造成資源的大量浪費,丟棄了大量隱藏在這些對象中的信息。在樣本量較小的情況下,刪除少量對象就足以嚴重影響到數據的客觀性和結果的正確性。因此,當缺失數據所佔比例較大,特別是當缺數據非隨機分布時,這種方法可能導致數據發生偏離,從而得出錯誤的結論。
(二)均值替換法(Mean Imputation)
在變數十分重要而所缺失的數據量又較為龐大的時候,個案剔除法就遇到了困難,因為許多有用的數據也同時被剔除。圍繞著這一問題,研究者嘗試了各種各樣的辦法。其中的一個方法是均值替換法(mean
imputation)。我們將變數的屬性分為數值型和非數值型來分別進行處理。如果缺失值是數值型的,就根據該變數在其他所有對象的取值的平均值來填充該缺失的變數值;如果缺失值是非數值型的,就根據統計學中的眾數原理,用該變數在其他所有對象的取值次數最多的值來補齊該缺失的變數值。但這種方法會產生有偏估計,所以並不被推崇。均值替換法也是一種簡便、快速的缺失數據處理方法。使用均值替換法插補缺失數據,對該變數的均值估計不會產生影響。但這種方法是建立在完全隨機缺失(MCAR)的假設之上的,而且會造成變數的方差和標准差變小。
(三)熱卡填充法(Hotdecking)
對於一個包含缺失值的變數,熱卡填充法在資料庫中找到一個與它最相似的對象,然後用這個相似對象的值來進行填充。不同的問題可能會選用不同的標准來對相似進行判定。最常見的是使用相關系數矩陣來確定哪個變數(如變數Y)與缺失值所在變數(如變數X)最相關。然後把所有個案按Y的取值大小進行排序。那麼變數X的缺失值就可以用排在缺失值前的那個個案的數據來代替了。與均值替換法相比,利用熱卡填充法插補數據後,其變數的標准差與插補前比較接近。但在回歸方程中,使用熱卡填充法容易使得回歸方程的誤差增大,參數估計變得不穩定,而且這種方法使用不便,比較耗時。
(四)回歸替換法(Regression Imputation)
回歸替換法首先需要選擇若干個預測缺失值的自變數,然後建立回歸方程估計缺失值,即用缺失數據的條件期望值對缺失值進行替換。與前述幾種插補方法比較,該方法利用了資料庫中盡量多的信息,而且一些統計(如Stata)也已經能夠直接執行該功能。但該方法也有諸多弊端,第一,這雖然是一個無偏估計,但是卻容易忽視隨機誤差,低估標准差和其他未知性質的測量值,而且這一問題會隨著缺失信息的增多而變得更加嚴重。第二,研究者必須假設存在缺失值所在的變數與其他變數存在線性關系,很多時候這種關系是不存在的。
(五)多重替代法(Multiple Imputation)
多重估算是由Rubin等人於1987年建立起來的一種數據擴充和統計分析方法,作為簡單估算的改進產物。首先,多重估算技術用一系列可能的值來替換每一個缺失值,以反映被替換的缺失數據的不確定性。然後,用標準的統計分析過程對多次替換後產生的若干個數據集進行分析。最後,把來自於各個數據集的統計結果進行綜合,得到總體參數的估計值。由於多重估算技術並不是用單一的值來替換缺失值,而是試圖產生缺失值的一個隨機樣本,這種方法反映出了由於數據缺失而導致的不確定性,能夠產生更加有效的統計推斷。結合這種方法,研究者可以比較容易地,在不舍棄任何數據的情況下對缺失數據的未知性質進行推斷。NORM統計可以較為簡便地操作該方法

C. 在處理股票收盤價時,一般停牌日的缺失數據怎麼處理

在系統里有盤後數據下載
試試吧

D. 分析股票時單獨一天歷史數據缺失 怎麼處理

一共有2個辦法:
1、進入數據管理,下載全部數據!
2、進入文件夾,找到DATA,然後再DAY裡面找到該股的代碼,將這個股單獨刪除,然後再開軟體,軟體會自動補充數據!

E. 股票收盤價為缺失值時移動平均值該如何處理

股票移動平均線是按照實際交易周期計算的,以日線為例,如果當日沒有交易,就不計算,有幾天計算幾天.
例如10天內肯定會有周六周日,周六周日也不交易也不用計算在內,你看股票走勢圖上面那個時間不是連續的,所以說250日均線相當於年線

F. 數據清理中,處理缺失值的方法有哪些

  1. 刪除含有缺失值的個案

  2. 可能值插補缺失值

    (1)均值插補

    (2)利用同類均值插補。

    (3)極大似然估計(Max Likelihood ,ML)

    (4)多重插補(Multiple Imputation,MI)


G. 股價數據缺失,用什麼插值法補齊較好

meigushe888

將這些錯誤的數據當錯缺失數據處理,需要採取一定的手段填充。缺失的數據採取插值法填充,這一點早就確定下來,但在如何實現上卻困擾很久。將原始問題簡化一下。比如有這樣一組數據。ID so co1 1 0.1 0.1 2 0 0.2 3 0.2 0 4 0 0 5 0 0.4 6 0.1 0.5插值法計算方法如下:(也可以不使用這兩個步驟,只要最後的結果一致就行) 步驟一:計算缺失值上下的已知值間的斜率: k = (b2 - b1)/(n + 1) n 為缺失數據的個數 步驟二:計算對應的缺失值 a(i) = b1 + k * i 經過處理後,得到的數據是這樣的:1 0.10 0.102 0.15 0.203 0.20 0.274 0.17 0.335 0.13 0.406 0.10 0.50我最初的想法是:在sql語句中用for循環來做。逐條地檢查每個數值,如果是0,那麼獲取它的前一個記錄的值b1,然後再繼續向後遍歷,獲取後面一個非0的值b2,計算這兩個非0數據之間的距離n,之後再用插值法將缺失的數據計算出來,並update到b1和b2之間的每一個值。按照這個思路,很麻煩,比如遍歷過程中如何獲取前一個數值?出現0的時候,如何記錄出現多少個0?for循環經過後,再如何update之前的數值? 被這些問題困擾很久!在論壇上發帖解決,解決的辦法很受啟發。1. 創建一個函數ALTER FUNCTION FUN_CO(@ID INT) RETURNS DECIMAL(18, 3) AS BEGIN DECLARE @NUM1 NUMERIC(19,2),@ID1 INT,@NUM2 NUMERIC(19,2),@ID2 INT SELECT TOP 1 @ID1=ID , @NUM1=CO FROM APRECORD WHERE ID<=@ID AND CO<>0 ORDER BY ID DESC SELECT TOP 1 @ID2=ID , @NUM2=CO FROM APRECORD WHERE ID>=@ID AND CO<>0 ORDER BY ID ASC IF @ID2<>@ID1 RETURN @NUM1+(((@NUM2-@NUM1)/(@ID2-@ID1))*(@ID-@ID1)) RETURN @NUM1 END2. 更新資料庫UPDATE APRECORD SET CO=DBO.FUN_CO(ID) WHERE DAYTIME >= @BDT AND DAYTIME < @EDT 在這個解決方案中,首先查找到缺失的數據,也就是值為0的數據,然後向前查找非0數據@NUM1,以及它的編號@ID1,向後查找非0的數據@NUM2. 以及編號@ID2。也就是步驟一。然後用公式計算出填充的數據。將上述過程保存在一個函數中,在存儲過程中調用。甚至不用for循環之類。

H. 2014年5、6月份天齊鋰業股票數據缺失是為什麼

2014年5、6月份,天齊鋰業股票數據缺失,是因為天齊鋰業在2014年4月29號開始停牌。公司在2014年4月30號發布了重大事項進展及繼續停牌的公告。一直延續到2014年8月25號才重新開盤。所以在5月6月7月份是沒有交易數據的。

I. 把一隻股票放置3年不處理,可能出現哪些結果,什麼原因導致

1,變廢紙了,因為公司倒閉;
2,升值了,因為3年的話一般會避過波動期,屬於長線操作,升值空間較大;
3,貶值了,因為公司市價下降。
希望你滿意

J. 如何處理數據中的缺失值

一、常用方法 1. 刪除
最簡單的方法是刪除,刪除屬性或者刪除樣本。如果大部分樣本該屬性都缺失,這個屬性能提供的信息有限,可以選擇放棄使用該維屬性;如果一個樣本大部分屬性缺失,可以選擇放棄該樣本。雖然這種方法簡單,但只適用於數據集中缺失較少的情況。

2. 統計填充
對於缺失值的屬性,尤其是數值類型的屬性,根據所有樣本關於這維屬性的統計值對其進行填充,如使用平均數、中位數、眾數、最大值、最小值等,具體選擇哪種統計值需要具體問題具體分析。另外,如果有可用類別信息,還可以進行類內統計,比如身高,男性和女性的統計填充應該是不同的。

3. 統一填充
對於含缺失值的屬性,把所有缺失值統一填充為自定義值,如何選擇自定義值也需要具體問題具體分析。當然,如果有可用類別信息,也可以為不同類別分別進行統一填充。常用的統一填充值有:「空」、「0」、「正無窮」、「負無窮」等。

4. 預測填充
我們可以通過預測模型利用不存在缺失值的屬性來預測缺失值,也就是先用預測模型把數據填充後再做進一步的工作,如統計、學習等。雖然這種方法比較復雜,但是最後得到的結果比較好。

二、具體分析
上面兩次提到具體問題具體分析,為什麼要具體問題具體分析呢?因為屬性缺失有時並不意味著數據缺失,缺失本身是包含信息的,所以需要根據不同應用場景下缺失值可能包含的信息進行合理填充。下面通過一些例子來說明如何具體問題具體分析,仁者見仁智者見智,僅供參考:

「年收入」:商品推薦場景下填充平均值,借貸額度場景下填充最小值; 「行為時間點」:填充眾數; 「價格」:商品推薦場景下填充最小值,商品匹配場景下填充平均值; 「人體壽命」:保險費用估計場景下填充最大值,人口估計場景下填充平均值; 「駕齡」:沒有填寫這一項的用戶可能是沒有車,為它填充為0較為合理; 」本科畢業時間」:沒有填寫這一項的用戶可能是沒有上大學,為它填充正無窮比較合理; 「婚姻狀態」:沒有填寫這一項的用戶可能對自己的隱私比較敏感,應單獨設為一個分類,如已婚1、未婚0、未填-1。

熱點內容
利率越低債券價格高 發布:2021-09-10 11:04:26 瀏覽:403
基金交易原則 發布:2021-09-10 11:03:50 瀏覽:464
車險如何網上買保險 發布:2021-09-10 11:03:14 瀏覽:970
英國郵局申根保險價格 發布:2021-09-10 11:03:13 瀏覽:16
果洛網上炒股 發布:2021-09-10 11:01:59 瀏覽:9
股市中的換手率內盤也算在內嗎 發布:2021-09-10 11:01:56 瀏覽:80
60歲老年人保險價格是多少 發布:2021-09-10 10:58:41 瀏覽:606
匯博股份有限公司招聘信息 發布:2021-09-10 10:57:17 瀏覽:66
河南期貨從業資格成績查詢入口 發布:2021-09-10 10:57:14 瀏覽:422
乙烯期貨價格 發布:2021-09-10 10:55:20 瀏覽:735