數據科學項目的最佳實踐

Best Practice for Data Science Projects 數據科學項目的最佳實踐

數據科學項目的最佳實踐

  1. 數據是如何收集/採樣的? 工程師可以有意或無意地引入數據偏差。 數據科學家可以獲取相同的數據並顯示相同的結果,無論是有利還是不利。
  2. 數據如何分成訓練/驗證/測試組? 數據的不適當拆分可能會導致生產結果的顯著差異。 對任何大小的數據集應用 80-20% 的拆分,而不是對傾斜的數據集進行分層是工程師經常犯的常見錯誤。
  3. 測試數據是否代表將使用模型的數據? 在一定時間內,有多少百分比的數據正在發生變化? 一個基本的檢查是,確保項目完成後收到的數據仍然代表業務需求。
  4. 是否可維護? 軟件應符合項目的要求。 當工程師完成項目的最後一步工作時,他們經常跑到項目經理那裡展示模型的指標(主要是根據準確性來定義的)。
  5. 是否可擴展? 如果數據集很小,以 80-20% 的比例拆分數據是可以的,但是,如果你有一個像 1000 萬這樣的大數據集。 在這種情況下,以 80-20 的比例進行拆分將產生 800 萬個訓練集大小和 200 萬個測試集大小。 你真的想讓你的測試集有那麼大嗎?
  6. 是否記錄在案? 工程師可以理解項目的每一部分和每一行代碼,因為他們創建了代碼,然而,良好的文檔將使新員工快速上手。 新人不應該花費太多時間來理解現有的工作。

確保在項目結束時具有以下內容:

  1. 所有內容均已編寫腳本,筆記本中的所有代碼均已實現。
  2. 已生成 ML 數據模型鏡像。
  3. 系統演示了從開始(第一步)到結束(最後一步)的平穩流程。

#Ai #人工智能 #人工智慧 #ML #機器學習 #深度學習 #現代化數據平台 #現代化數據平臺 #數據諮詢 #數據規劃 #數據計劃 #數據建模 #數據分析之旅 #數據之旅 #香港數據分析 #雲端儲存 #雲端遷移 #Azure #PowerBI #Microsoft #微軟 #Databricks

如果您有任何疑問或對我們的服務感興趣,歡迎與我們聯繫。

支援性screen tag
zh_HKChinese