為了挽救 Vision Pro,蘋果又出招了。日前有消息源曝光了他們獲批的一個新專利,顯示其未來的頭戴式設備將支持讀取唇語,所以用戶無需發出聲音,就可通過讀取唇部動作來接收命令。
就在小米和阿里先后下場之后,這一輪 AI 眼鏡熱潮已經到來。然而在烈火烹油的局面下,這類產品其實也面臨著不小的危機。根據 VR Vision 的統計,僅僅在抖音電商,AI 眼鏡的平均退貨水平就達到了 40%-50%。而在網友們將其列為 " 吃灰神器 " 的一眾原因里,除了元器件變多會增加佩戴負擔外,語音交互則是另一個被集中反饋的痛點。
誠然,在 AI 大模型相關技術跨越式發展的當下,這類智能設備都擁有了不錯的語義識別能力,能夠理解用戶語句背后的含義,再輔以降噪引擎,可以在各種各樣的聲音中分辨所需要的語音流,從而精準識別來自佩戴者的指令。
盡管拾音和語義理解都不是問題,但真正的痛點就在于,不是所有人都能克服在大庭廣眾之下對著空氣說話帶來的羞恥感。再加上由于公共場合的聲音環境更加復雜,所以即便降噪技術再先進,也需要用戶用更高的音量來操控設備。可是在公共場合高聲喧嘩,顯然就與公序良俗相背。再加上語音交互就需要用一定音量說出需求,但不少人并不希望自己的隱私被暴露。
十年前,馬化騰在談及騰訊沒有做語音助手時就曾表示," 我們沒有作為重點去做,這個功能看起來方便,其實未必,比如一個人對著手機說我要去干嘛干嘛,好傻,人一多我都不好意思這么說,而且也不私密,寧可多按幾下。"
那么問題就來了,難道 AI 眼鏡、XR 頭顯的廠商不知道語音交互的缺陷嗎?其實答案是語音交互已經是當下最有性價比的解決方案了。但語音交互的一大痛點就是用戶必須要發出聲音,可要強化 ASR(語音識別)、NLP 自然語義處理、遠場拾音,并捕捉用戶壓低聲音說話的聲紋,成本就必然會大幅度提升,進而又會導致潛在受眾群體變少。可如果降低成本,大聲說話帶來的社交壓力又客觀存在。
在觸控交互不適合頭戴設備,語音交互有缺陷的情況下,蘋果這一識別唇語的無聲輸入模式就有望成為一個兩全其美的解決方案。用戶無需發出聲音,讀取唇部動作來接收命令的方式,就解決了用戶在公共場合與設備交互帶來的一系列痛點。更何況識別唇語如今也不是什么黑科技,只需搭配一個成熟的 AI 視覺模型就可解決。
【本文圖片來自網絡】