EchoSpeech眼鏡。圖片來源:康奈爾大學
近日,美國康奈爾大學研究人員開發(fā)了一款聲吶眼鏡,它通過聲學感應和人工智能跟蹤嘴唇和嘴巴的動作,可連續(xù)識別多達31條無聲的命令,該系統(tǒng)可為那些暫時不方便說話或無法發(fā)聲的人提供幫助。相關論文將在本月于德國漢堡舉行的計算機協(xié)會計算系統(tǒng)人為因素會議上發(fā)表。
這款眼鏡是一種名為EchoSpeech的無聲語音識別接口。該眼鏡配備了一對麥克風和比鉛筆橡皮擦還小的揚聲器,成為一個可穿戴的人工智能驅動的聲吶系統(tǒng),在面部發(fā)送和接收聲波,并感知嘴巴的運動。然后,深度學習算法實時分析這些回聲輪廓,準確率約為95%。這款低功耗、可穿戴的眼鏡只需要幾分鐘的用戶訓練數(shù)據(jù),即可識別命令并可在智能手機上運行。
EchoSpeech可用于在說話不方便或不合適的地方通過智能手機與他人交流,比如在嘈雜的餐廳或安靜的圖書館里。無聲語音界面還可與觸筆配對,并與CAD等設計軟件一起使用,幾乎不需要鍵盤和鼠標。
研究人員表示,他們正在將聲吶技術“搬”到人體上。它體積小、功耗低、對隱私敏感,這些都是在現(xiàn)實世界中部署新的可穿戴技術的重要功能。無聲語音識別中的大多數(shù)技術都局限于一組選定的預定命令,需要用戶面部或佩戴攝像頭,這既不實用也不可行??纱┐魇綌z像頭也存在重大的隱私問題,對用戶和與之互動的人來說都是如此。而像EchoSpeech這樣的聲學傳感技術消除了對可穿戴式攝像機的需求。
此外,由于音頻數(shù)據(jù)比圖像或視頻數(shù)據(jù)小得多,因此EchoSpeech只需更小的帶寬,通過藍牙實時傳輸?shù)街悄苁謾C上,且數(shù)據(jù)在本地,不在云端,確保了敏感隱私信息安全。
今年以來,人工智能再次引發(fā)極大關注。幾年前,專家們還在探討如何讓人工智能更加準確地理解人的意圖,并與人進行多輪對話。曾經,讓人工智能讀懂唇語,還只是科幻電影中的橋段。如今,這些都在快速變?yōu)楝F(xiàn)實。面對人工智能帶來的超乎預期的變化,不能停留在“看熱鬧”階段,人們需要真正去思考,如何更好地主宰人工智能,利用它為人類造福,并盡量規(guī)避它可能帶來的麻煩。
1.本網(wǎng)(張家口新聞網(wǎng))稿件下“稿件來源”項標注為“張家口新聞網(wǎng)”、“張家口日報”、“張家口晚報”的,根據(jù)協(xié)議,其文字、圖片、音頻、視頻稿件之網(wǎng)絡版權均屬張家口新聞網(wǎng)所有,任何媒體、網(wǎng)站或個人 未經本網(wǎng)協(xié)議授權,不得轉載、鏈接、轉貼或以其他方式復制發(fā)表。已經本網(wǎng)協(xié)議授權的媒體、網(wǎng)站,在下載使用 時須注明“稿件來源:張家口新聞網(wǎng)”,違者本網(wǎng)將依法追究責任。
2.本網(wǎng)其他轉載稿件涉及版權等問題,請作者或版權所有者在一周內來電或來函。聯(lián)系電話:0313-2051987。