解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

經過一年多洗禮，大家對 AI 認識不少，很多人更好奇，資料/ AI領域在做什麼？如何學習？相關底層技術有什麼。為回應這些問題，我寫下這一系列文章，將由淺入深提介紹資料科學領域、分工、使用技術、實用問題，並推薦學習教材﹝經本人學習與實戰經驗篩選！﹞。本文是系列文第一篇，介紹「資料科學的領域與分工」。

｜AI 價值鏈：一條比想像中難走的路

可能是出於對技術的樂觀，一般情況下﹝可能不少業界和普遍人士﹞，人們總感覺好像把 AI 融入組織，就能很快產生豐厚的價值。可是從資料到產生價值這個過程比想像的更久、更難，需要許多資料科學技術密切投入，才可能產生研發的價值。

AI 價值鏈

一、首先，就資料收集來說就是一門大課題。資料的選擇密切與研發目標相關。如果你想關注農產品的價格，你需要考量不同層級影響指標，像是市場事件、競合國的供應鏈，或總體經濟指標等。假如是一位健身教練，他蒐集偏好可能傾向用戶的健身頻率、健身菜單、飲食追蹤或是學員失聯多久。更有趣的是，即便是婚姻市場也能數據化，例如夫妻雙方人格測試、家庭是否單親，甚至有沒有經常上教會等等。總之能收集的有許多，有時候也很吃創意。

同時，這個環節也與「資料工程」密切相關，涉及所收集的資料用什麼方式管理，如何設計資料庫，還有打造有效率的資料提取流程等工程事項。我也見過有些組織不懷目的性的收集數據，也許只是為了建檔，或是加快數位化帶來的方便而已；也有一些組織有想法，但是不知道要收集什麼數據，或是因為隱私安全疑慮而無法起步。

二、有了資料以後，才是 AI﹝或機器學習﹞發揮的地方。這個步驟是數據科學家的主秀，涉及資料的探索、清洗、數據操作和 AI 模型訓練，非常細節。這個部分既看經驗也看創意，研發人員會探索資料的性質，並使用許多數學或演算方法。目的是為了更認識數據，並設計出能為 AI 演算法所用的數據模式。經過一番的訓練、測試與教調後產生出模型。而另一方面，資料分析師也可以在資料與資料流完整的環境下進行數據分析，產生商業洞見與決策訊息。

三、生出來的模型用來實戰預測，部署到機器或雲端以監控與實用，做 machine learning operation 用途。模型的生成只是個通泛的概念，可能是一個模型也可能是一群模型，可能是機器學習演算法，也可能是強化學習。因應目標不同，有不同的方法、準則、優化和篩選機制。總之這段只是要說明，AI 的價值鏈本身涉及研究目標及其息息相關的技術操作，有通用的概念，卻也需要case by case細微調整。

｜數據科學領域的腳色與分工

先奉上一張圖，我覺得它把整個資料科學的工作流，講解得極為清楚。

資料科學工作分工。來源：資料科學家的工作日常

本小節跟前一節是可以呼應的。圖中的「取得資料」，對應到前一節的第一點「資料收集」，衍伸出資料工程師、資料庫工程師和爬蟲工程師職業。從「資料前處理」到「模型評估」則對應到前一節第二點「AI 模型訓練」，其涉及到多種職業，他們有的善於視覺化和提出建議，有的善於使用算法、統計工具和軟體架構。而近年有名的職業「資料科學家」主要就在這個範圍活動。最後的「決策應用」則對應前一節的第三點「實戰應用」，圖中這一環節，水平與垂直分別對應涉及不同度的技術與決策洞見，而有了架構師和分析師兩個職位。

從這張圖其實看得出來，第一個是大家各司其職，但是卻互有交集。工程師、科學家、統計專家和分析師各有所長卻也互有交際；再來是職位的守備範圍很浮動，像是作為一個資料工程師，你可以橫向往圖中尺度的右邊走，透過數據處理提升領域知識；資料科學家也可以增強技術底，縱向的往軟體底層和後端走，既生成資料也可以設計架構。

對於職涯選擇的 “Job description” 好奇或困惑的，一定要多看幾次這張圖，從流水線分工的角度，理解他們的差異與交集。

所以分工與產業是非常複雜的。你真的能說讀什麼科系是有用，什麼沒用；什麼跟 AI 有關，什麼無關嗎？一個有政治學專業的人，可以為工程團隊提供領域見解，再加上一點統計學，其實他也可以跟尺度右邊的應用端進行技術溝通。相反地，誰說金融只能給財金人士搞呢？財務工程使用的模型如今也仰賴輝達的生態系﹝CUDA﹞進行模擬運算；衍生性金融商品預測，也常引入最優化的概念，這些又豈止是文組的事情──華爾街很多物理跟數學的人，有聽過吧？

我的核心精神就是廣泛學習，強化跨領域合作基礎實力。只要環境一直在擴張，一定有專屬我們的位置；即便環境不好，你也不會挫敗。

這篇就先到這，下一篇我們要講 AI 的類型與發揮的戰場。

Darren's

Menu

解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

｜AI 價值鏈：一條比想像中難走的路

｜數據科學領域的腳色與分工

0 留言

Welcome to Darren's

搜尋此網誌

Popular Posts

文本分析：唐人傳奇【杜子春】和醒世恆言【杜子春三入長安】比較

唐宋墓誌寫作比較：以〈柳子厚墓誌銘〉和〈尹師魯墓誌銘〉為例

會計筆記：收益性支出與資本性支出

不朽的秘密

經濟學原理筆記：總體經濟部分PART 1

閑居散記

精選文章

金融海嘯與經濟危機10周年系列專文正式上線

Tags

Translate

Contact Info

Contact List

Menu

解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

｜AI 價值鏈：一條比想像中難走的路

｜數據科學領域的腳色與分工

你可能會喜歡這些文章

0 留言

Welcome to Darren's

搜尋此網誌

Popular Posts

精選文章

Tags

Translate

Contact Info

Contact List