記者/鄭妙湘
人類通常能夠在吵雜環境中分辨出各種聲音,現在機器也能完成。近期Google 的專家們利用深度學習(deep learning)結合臉部辨識,可只靠人類講話的臉部表情、嘴型挑出特定聲音,在辨別的過程中會將聲音片段(包含背景音)交給AI人工智慧來分離,最後從多個聲音中「分離」出獨立音軌。
根據蘋果日報16日報導,Google官方釋出了一段影片,畫面中是兩位主播激烈的針對議題爭論,聲音重疊時幾乎難以聽清楚任何一方的意見,透過軟體強化其中一主播聲音後,就能清楚聽見單方意見。雖然此功能極為方便,但仍存在潛在爭議,例如公開竊聽等,要如何規範與現制,將會是開發者的挑戰。