直播開講!給所有人的大數據科學:NLP基礎與ChatGPT服務串接 (簡報 + 直播影片)



之前沉潛了好一陣子 (嗯…兩到三年),因為非常著迷於研究數據科學與AI,這也成了我的現職。而我生平第一次用直播方式出現在眾人面前,竟然就是分享當前最新技術──ChatGPT──就在今年4月17日。 


給所有人的大數據科學,一直是我的初衷。如果可以讓大家都能理解一個複雜的應用,那會是很有成就感的事情! 

 



回到內容,0417的直播分成兩部分,第一部份分享自然語言處理 (Natural Language Processing, NLP)。提及大型語言模型的湧現現象,還有NLP要處理的任務:字詞分割、辭典建立、分析與字詞預測。 


這之中,又以字詞預測為最重要!因為他是今天ChatGPT (和各種AI) 之所以能夠講人話的重點。我展示了自己以統計為基礎模型,學習百字的BBC新聞後寫作新聞的結果 (詳細文章請見這裡),為的是展示基本模型的對話能力。 


可近年來重頭戲,莫過於Transformer架構。由於他跳脫了純粹的統計,用了encoder和decoder壓縮資訊,然後又解碼資訊,將我們輸入的資訊轉譯、或者形成對話。 


那上面說的 encoder、decoder跟 Transformer架構又是啥?摁,我都講在直播跟簡報裡啦!而我的目標,是講出給所有人的大數據科學,所以一定很好懂!而當天的聽眾也給我很多此類的正向回饋。 


第一部份的最後,我也分享ChatGPT的 (大概) 訓練流程,也供大家了解當前domain的前緣技術,用什麼方法練出這個巨型對話怪物的。 


第二部份,我串接openai 的key,連結他們的服務處理音訊轉文字的任務,和摘要會議重點。我確實感覺到一個很強大的工具,open ai提供不同模型以處理不同任務。 


我實際操作ChatGPT做 (1) 語音轉文字的任務,以及 (2)複雜表格的資訊摘取 (詳細可以看我這篇文章) ──使用 OpenAI 提供的接口配上 Python 程式碼進行。而且我不只使用GPT3.5,我也使用了GPT-4,後者確實威力強大。 


關於語音轉文字,像是Whisper模型音訊處理相當準確,雖然無法判斷哪句話是誰說的,可但凡是聲音,他都能轉譯成精確能懂的文句;關於從複雜表格資訊摘取,GPT-4模型使用起來更是強大,不只對話邏輯清晰,從混亂中摘取重點的能力也明顯勝過3.5 


一樣,內容一樣就在直播和簡報裡。快看看吧! 


YT直播回放影片 (主講時間應為2023.04.17)


0 留言