
亞馬遜(Amazon)和 Google 等公司的智慧助理近幾年的發展,已可準確辨識人們的語音指令。但另一個更難以置信的里程碑可能就在眼前,這將使語音辨識相形見絀:人工智慧(AI)可將大腦活動轉化為文字,而不需要使用者說話。
加州大學舊金山分校(University of California San Francisco, UCSF)神經外科醫生張復倫(Edward Chang)領導的團隊,使用一種新的方法來解碼皮層腦電圖(electrocorticogram),這是由植入大腦的電極所接收的大腦皮層電脈衝記錄。
這項研究招募四名癲癇患者參與實驗,這些患者大腦已植入電極以監控癲癇發作狀況。實驗方式為讓參與者大聲朗讀並重複 30 至 50 個不同的句子,同時記錄他們的大腦活動,然後將數據輸入到人工智慧神經網路。
這個神經網路會根據實驗過程收集到的音檔,分析與某些語音特徵相對應的大腦活動模式,例如母音、子音或口部動作。並使用神經網路從重複句子收集的皮層活動去分析表現特徵,然後試著預測說話內容。
實驗結果顯示,錯誤率平均低於 3%,但超出訓練集使用的句子會產生較差的結果。不過在嚴格定義的實驗條件下,這可能是 AI 有史以來最接近實現讀心術的一次實驗。
在論文中,團隊詳細介紹參與者所說句子的許多範例,以及 AI 產生的預測結果,有些顯而易見的錯誤與人耳聽到的語音有很大不同,這可能是由於引入 AI 的數據量有限。
儘管存在怪異的明顯錯誤,但整體來說,此 AI 系統仍可成為解讀大腦活動的新基準,相當於單字錯誤率為 5% 的專業語音轉文字系統 。當然,處理一般對話的語音轉文字系統必須有成千上萬個單詞的詞彙庫。相比之下,該系統僅學習有限短句中大約 250 個單詞的皮質特徵,因此將兩者比較未盡公平。
研究小組認為該系統未來可能成為語言障礙患者與外界溝通的機會。作者解釋:「已長期植入電極的受測者可用於訓練的數據量,將比本研究中使用約半小時語音還要大幾個數量級,也就是說詞彙庫和彈性還有再大幅度擴展的可能性。」