解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業



經過一年多洗禮,大家對 AI 認識不少,很多人更好奇,資料/ AI領域在做什麼?如何學習?相關底層技術有什麼。為回應這些問題,我寫下這一系列文章,將由淺入深提介紹資料科學領域、分工、使用技術、實用問題,並推薦學習教材﹝經本人學習與實戰經驗篩選!﹞。本文是系列文第一篇,介紹「資料科學的領域與分工」。

 

AI 價值鏈:一條比想像中難走的路

可能是出於對技術的樂觀,一般情況下﹝可能不少業界和普遍人士﹞,人們總感覺好像把 AI 融入組織,就能很快產生豐厚的價值。可是從資料到產生價值這個過程比想像的更久、更難,需要許多資料科學技術密切投入,才可能產生研發的價值。

 

AI 價值鏈


一、首先,就資料收集來說就是一門大課題。資料的選擇密切與研發目標相關。如果你想關注農產品的價格,你需要考量不同層級影響指標,像是市場事件、競合國的供應鏈,或總體經濟指標等。假如是一位健身教練,他蒐集偏好可能傾向用戶的健身頻率、健身菜單、飲食追蹤或是學員失聯多久。更有趣的是,即便是婚姻市場也能數據化,例如夫妻雙方人格測試、家庭是否單親,甚至有沒有經常上教會等等。總之能收集的有許多,有時候也很吃創意。

 

同時,這個環節也與「資料工程」密切相關,涉及所收集的資料用什麼方式管理,如何設計資料庫,還有打造有效率的資料提取流程等工程事項。我也見過有些組織不懷目的性的收集數據,也許只是為了建檔,或是加快數位化帶來的方便而已;也有一些組織有想法,但是不知道要收集什麼數據,或是因為隱私安全疑慮而無法起步。

 

二、有了資料以後,才是 AI﹝或機器學習﹞發揮的地方。這個步驟是數據科學家的主秀,涉及資料的探索、清洗、數據操作和 AI 模型訓練,非常細節。這個部分既看經驗也看創意,研發人員會探索資料的性質,並使用許多數學或演算方法。目的是為了更認識數據,並設計出能為 AI 演算法所用的數據模式。經過一番的訓練、測試與教調後產生出模型。而另一方面,資料分析師也可以在資料與資料流完整的環境下進行數據分析,產生商業洞見與決策訊息。

 

三、生出來的模型用來實戰預測,部署到機器或雲端以監控與實用,做 machine learning operation 用途。模型的生成只是個通泛的概念,可能是一個模型也可能是一群模型,可能是機器學習演算法,也可能是強化學習。因應目標不同,有不同的方法、準則、優化和篩選機制。總之這段只是要說明,AI 的價值鏈本身涉及研究目標及其息息相關的技術操作,有通用的概念,卻也需要case by case細微調整。

 

|數據科學領域的腳色與分工

先奉上一張圖,我覺得它把整個資料科學的工作流,講解得極為清楚。


資料科學工作分工。來源:資料科學家的工作日常


本小節跟前一節是可以呼應的。圖中的「取得資料」,對應到前一節的第一點「資料收集」,衍伸出資料工程師、資料庫工程師和爬蟲工程師職業。從「資料前處理」到「模型評估」則對應到前一節第二點AI 模型訓練」,其涉及到多種職業,他們有的善於視覺化和提出建議,有的善於使用算法、統計工具和軟體架構。而近年有名的職業「資料科學家」主要就在這個範圍活動。最後的「決策應用」則對應前一節的第三點「實戰應用」,圖中這一環節,水平與垂直分別對應涉及不同度的技術與決策洞見,而有了架構師和分析師兩個職位。

 

從這張圖其實看得出來,第一個是大家各司其職,但是卻互有交集。工程師、科學家、統計專家和分析師各有所長卻也互有交際;再來是職位的守備範圍很浮動,像是作為一個資料工程師,你可以橫向往圖中尺度的右邊走,透過數據處理提升領域知識;資料科學家也可以增強技術底,縱向的往軟體底層和後端走,既生成資料也可以設計架構。

 

對於職涯選擇的 “Job description” 好奇或困惑的,一定要多看幾次這張圖,從流水線分工的角度,理解他們的差異與交集。


所以分工與產業是非常複雜的。你真的能說讀什麼科系是有用,什麼沒用;什麼跟 AI 有關,什麼無關嗎?一個有政治學專業的人,可以為工程團隊提供領域見解,再加上一點統計學,其實他也可以跟尺度右邊的應用端進行技術溝通。相反地,誰說金融只能給財金人士搞呢?財務工程使用的模型如今也仰賴輝達的生態系﹝CUDA﹞進行模擬運算;衍生性金融商品預測,也常引入最優化的概念,這些又豈止是文組的事情──華爾街很多物理跟數學的人,有聽過吧?

 

我的核心精神就是廣泛學習,強化跨領域合作基礎實力。只要環境一直在擴張,一定有專屬我們的位置;即便環境不好,你也不會挫敗。

 

這篇就先到這,下一篇我們要講 AI 的類型與發揮的戰場。

0 留言