數據科學項目的最佳實踐
- 數據是如何收集/採樣的? 工程師可以有意或無意地引入數據偏差。 數據科學家可以獲取相同的數據並顯示相同的結果,無論是有利還是不利。
- 數據如何分成訓練/驗證/測試組? 數據的不適當拆分可能會導致生產結果的顯著差異。 對任何大小的數據集應用 80-20% 的拆分,而不是對傾斜的數據集進行分層是工程師經常犯的常見錯誤。
- 測試數據是否代表將使用模型的數據? 在一定時間內,有多少百分比的數據正在發生變化? 一個基本的檢查是,確保項目完成後收到的數據仍然代表業務需求。
- 是否可維護? 軟件應符合項目的要求。 當工程師完成項目的最後一步工作時,他們經常跑到項目經理那裡展示模型的指標(主要是根據準確性來定義的)。
- 是否可擴展? 如果數據集很小,以 80-20% 的比例拆分數據是可以的,但是,如果你有一個像 1000 萬這樣的大數據集。 在這種情況下,以 80-20 的比例進行拆分將產生 800 萬個訓練集大小和 200 萬個測試集大小。 你真的想讓你的測試集有那麼大嗎?
- 是否記錄在案? 工程師可以理解項目的每一部分和每一行代碼,因為他們創建了代碼,然而,良好的文檔將使新員工快速上手。 新人不應該花費太多時間來理解現有的工作。