數據科學項目的最佳實踐

Best Practice for Data Science Projects 數據科學項目的最佳實踐

數據科學項目的最佳實踐

  1. 如何收集/採樣數據? 工程師可以有意或無意地引入數據偏差。 數據科學家可以採用相同的數據,並顯示相同或不同的結果。
  2. 數據如何劃分為訓練/驗證/測試組? 數據的不適當拆分可能會導致生產結果出現重大差異。 工程師經常犯的常見錯誤是,將80-20%的拆分應用於任何大小的數據集,並且不對傾斜的數據集進行分層。
  3. 測試數據是否代表將使用模型的數據? 在一定時間內,有多少百分比的數據在變化? 基本檢查是為了確保項目完成後收到的數據仍然代表業務需求。
  4. 它可以維護嗎? 該軟件應符合項目的要求。 當工程師完成項目的最後一步時,他們經常跑到項目經理那裡來演示模型的指標(主要是在準確性上定義)。
  5. 它可擴展嗎? 如果數據集很小,則以80%至20%的比例拆分數據是可以的,但是,如果您有1000萬個大數據集。 在這種情況下,以80–20的比例進行拆分將產生800萬個火車套件大小和200萬個測試套件大小。 您真的要把測試裝置的大小做得這麼大嗎?
  6. 是否有文件記錄? 工程師可以理解項目的每一部分和每一行代碼,因為他們創建了代碼,但是,好的文檔可以使新員工迅速掌握最新信息。 新人們應該不花太多時間來理解現有的工作。

確保在項目結束時具有以下內容:

  1. 所有內容均已編寫腳本,筆記本中的所有代碼均已實現。
  2. ML數據模型圖像已生成。
  3. 系統演示了從開始(第一步)到結束(最後一步)的平穩流程。

#Ai #人工智能 #人工智慧 #ML #機器學習 #深度學習 #現代化數據平台 #現代化數據平臺 #數據諮詢 #數據規劃 #數據計劃 #數據建模 #數據分析之旅 #數據之旅 #香港數據分析 #雲端儲存 #雲端遷移 #Azure #PowerBI #Microsoft #微軟 #Databricks

如果您有任何疑問或對我們的服務感興趣,歡迎與我們聯繫。

zh_HKChinese