中文字幕亚洲欧美日韩在线不卡,亚洲欧美日产综合在线网性色,思思久久精品6一本打道,综合视频中文字幕

    <sub id="dxmnt"><ol id="dxmnt"></ol></sub>

      1. 如何讓董宇輝不下班?

        更新時間:2022-07-28 14:20:48作者:佚名

        如何讓董宇輝不下班?

        魚羊 蕭簫 發(fā)自 非寺
        量子位 | 公眾號 QbitAI

        “還有46分鐘,董老師休假就結(jié)束了?!?/p>

        這是董宇輝最新視頻下點贊過百的一條留言。

        他在東方甄選直播間消失的日子里,粉絲們涌入他的個人號,調(diào)侃“這個男人只要一放假休息,幾十萬人都得跟著失戀”。

        然而對于頭部主播來說,再怎么愛崗敬業(yè),也總有下播的時候。

        畢竟連著幾個小時不斷說話,還得是妙語連珠的那種,既耗費腦力,對體力也是個不小的挑戰(zhàn)。

        在這種情況之下,不僅“24小時直播”不大可能,連不輪班的長時間嘮嗑也不是人人能頂?shù)米〉摹?/p>



        不過話說回來,如果有機器加持呢……

        特別是這段時間以來虛擬人等技術(shù)的爆火,很難不讓人腦洞大開——

        憑借AI能力,能否做到讓頭部主播“本人”24小時駐守直播間?

        更進一步說,是不是沒有董老師的雙語能力,也能語言無縫轉(zhuǎn)換,直接走向國際?



        24小時直播,到底難在哪?

        按目前實現(xiàn)的各種AI技術(shù)來看,這些“腦洞”并非無法實現(xiàn)。

        圖像技術(shù)上,AI直接生成虛擬形象、或是給主播“換”個臉已經(jīng)不是什么難事。

        例如,國外以假亂真的“阿湯哥”在TikTok上火了好一陣,國內(nèi)的柳夜熙、李星瀾等虛擬形象也在國內(nèi)社交媒體平臺上大受歡迎,視頻中幾乎看不見“AI合成”的影子,評論中驚艷的聲音也居多。



        不僅如此,AI生成圖像甚至視頻的效果也日漸精致,國外OpenAI的DALL·E2、谷歌最新Imagen和Parti、國內(nèi)智源CogVideo和微軟亞研院NUWA-Infinity等,都是這幾個月出現(xiàn)的新成果。

        上述這些圖像技術(shù),有不少已經(jīng)開放了API接口、或是申請試用,加上有不少類似的開源模型,基本上已經(jīng)能做到“人人可玩”。

        基于這些技術(shù),現(xiàn)在國內(nèi)外各平臺,也出現(xiàn)了不少“24小時直播”的AI博主。

        但點進去看卻會發(fā)現(xiàn),這些AI博主遠不如真人主播、或是真人扮演的虛擬主播人氣高。



        △24小時AI虛擬主播,半天只有167人“看過”

        直播效果上,也與我們期待的那種“24小時直播”有點遠:

        互動時,大部分AI主播能做的非常有限,有些只能簡單地唱幾首歌(限定歌單)、或是根據(jù)設(shè)定好的指令進行回復(fù)等;



        說話時,用AI合成的虛擬主播音色,不僅語氣沒有真人主播那般生動、也無法主動制造一些情緒上的“驚喜”。

        這背后反映的是絕大多數(shù)虛擬AI主播的痛點——

        雖然這幾年圖像生成技術(shù)突破不斷,但語音語言AI的技術(shù)門檻,卻仍然較高。

        以董宇輝直播間為例,雖然只要董老師樂意,合成一個“AI董宇輝”的形象并不是一件難事;

        然而,讓“AI版”董老師說話語氣和音色更像本人、認出直播間其他老師的聲音、甚至聽懂直播間外助手的“指示”等操作,卻仍舊難以完成。

        這背后對應(yīng)的,是語音合成聲音識別、語音識別等各種語音語言AI的綜合能力。

        更進一步,想讓這個直播間國際化的話,還會對語音能力提出更高一步的要求。



        例如,至少需要能夠實時在線翻譯的AI字幕。

        在此基礎(chǔ)上,如果要做成無障礙直播間的話,還需要進一步掌握同聲傳譯的能力。



        好消息是,現(xiàn)在,已經(jīng)有越來越多科技大廠注意到這一賽道,這幾年一直在不斷加大投入。

        國內(nèi)外大廠紛紛加碼

        光從理論研究來看,語音語言AI方向的論文已有不少。

        亞馬遜谷歌等大廠,關(guān)于對話AI、NLP和語言處理等方向的AI論文已經(jīng)達到幾百甚至上千篇,其中有不少都是頂會論文;Meta光是2018一年,就拿了EMNLP和ACL兩大NLP頂會的最佳論文……



        (當然,也有少發(fā)論文的,例如蘋果更喜歡申請專利)

        國內(nèi)如BAT、華為、京東等公司,這幾年也成立了自己的聲學(xué)或NLP實驗室,在NAACL、AAAI和ACL等不少頂會上拿過各種論文獎項。



        △ACL 2022部分杰出論文獎

        以IWSLT(國際口語機器翻譯比賽)為例,這是國際上最具影響力的口語機器翻譯比賽之一。

        就在今年的賽事上,華為在語音到語音翻譯、離線語音翻譯和等長口語翻譯三個任務(wù)上,拿到了四個語言方向的TOP 1。



        但在研究以外,各大廠在語音語言AI技術(shù)的落地上卻有著不同的思路。

        除了基于最新研究優(yōu)化自身產(chǎn)品(語音助手、搜索引擎等)以外,部分廠商選擇直接將模型開源、或是做成AI框架供開發(fā)者調(diào)用。

        這樣的AI能力,對于不少沒接觸過AI的開發(fā)者來說又“過于深奧”,甚至連它應(yīng)該怎么用、用在哪里都難以捉摸清楚。

        一定程度上,也導(dǎo)致了不少開發(fā)者并沒有機會接觸到最新的語音語言類AI技術(shù)。

        尤其是這幾年很火的同聲傳譯AI,對于實時性和模型性能都有一定的要求,相應(yīng)的論文和Workshop也在頂會上出現(xiàn)得越來越多。

        對于直播等行業(yè)來說,要想擴大受眾和影響范圍,同傳AI也是一項不可或缺的技術(shù)。

        所以,有沒有門檻更低的落地方式呢?

        現(xiàn)在就已經(jīng)有不少廠商開始嘗試一種新方法——

        以華為為例,就針對移動端開發(fā)者,基于華為移動核心服務(wù)(HMS Core)打造了一套專門的機器學(xué)習(xí)服務(wù)(ML Kit)工具包

        在這樣的基礎(chǔ)上,開發(fā)者無需掌握AI技術(shù)細節(jié),就能在自己開發(fā)的移動APP或應(yīng)用中用上這些語音語言技術(shù)。

        例如,剛剛我們看到的AI字幕(在線文本翻譯)和同聲傳譯,就是基于華為這套工具包中的語音語言AI能力,輕松做出來的效果。

        開發(fā)門檻越來越低

        說了這么多,具體怎么上手用起來,咱們不妨看看前輩們都是怎么做的。

        比如,在華為開發(fā)者論壇上,就有人基于ML Kit中實時語音識別、實時語音轉(zhuǎn)寫等功能,給外婆開發(fā)了一個語音搜索購物App。



        其中語音功能的實現(xiàn),步驟并不復(fù)雜。

        首先,你需要做一些開發(fā)準備工作,包括:在華為開發(fā)者聯(lián)盟網(wǎng)站上完成實名注冊,配置AppGallery Connect,并在工程中配置HMS Core SDK的Maven倉地址。

        然后,集成相關(guān)服務(wù)SDK。以實時語音識別服務(wù)為例,代碼如下:

        dependencies{ // 引入實時語音識別服務(wù)插件 implementation 'com.huawei.hms:ml-computer-voice-asr-plugin:3.5.0.303'}

        接著,就可以進入接入語音服務(wù)的階段了。

        還是以實時語音識別服務(wù)為例。在設(shè)置完成應(yīng)用的鑒權(quán)信息之后,第一步是參考支持語言列表LANGUAGE,創(chuàng)建intent,用于設(shè)置實時語音識別參數(shù)。

        mSpeechRecognizer.getLanguages(new MLAsrRecognizer.LanguageCallback() { @Override public void onResult(List { Log.i(TAG, "support languages==" + result.toString()); } @Override public void onError(int errorCode, String errorMsg) { Log.e(TAG, "errorCode:" + errorCode + "errorMsg:" + errorMsg); }});

        result)

        第二步是創(chuàng)建activity,傳入之前創(chuàng)建的intent,用于拾音,并將結(jié)果返回原activity,可實時識別60s內(nèi)(包括60s)的語音。

        private static final int REQUEST_CODE_ASR = 100;// REQUEST_CODE_ASR表示當前Activity和拾音界面Activity之間的請求碼,通過該碼可以在當前Activity中獲取拾音界面的處理結(jié)果。startActivityForResult(intent, REQUEST_CODE_ASR);

        最后,覆寫“onActivityResult”方法,用于處理語音識別服務(wù)返回結(jié)果即可(詳細代碼見參考鏈接)。

        每一步的開發(fā)細節(jié),在HMS Core官網(wǎng)都有詳盡的開發(fā)指南可供查詢,十分新手友好。

        另外,HMS Core的機器學(xué)習(xí)服務(wù)也不僅適用于華為手機,Android設(shè)備和iOS設(shè)備也能用,具體版本要求如下。



        怎么樣?簡單接入SDK,無需復(fù)雜的調(diào)參訓(xùn)練,即可獲得大廠商用級別的AI算法能力,你是不是已經(jīng)腦洞大開了?

        (并且還不僅僅是語音語言技術(shù),ML Kit還提供了文本、圖像等各種AI算法功能。具體詳情,可戳文末“閱讀原文”,參考ML Kit官網(wǎng))

        實際上,這種把長期積累的技術(shù)能力,通過能夠輕松上手的工具釋放給移動應(yīng)用開發(fā)者的做法,亦非華為一家獨有。

        無論是谷歌的GMS Core,還是蘋果面向開發(fā)者的各種Kit,核心目的都是想不斷降低前沿技術(shù)落地的門檻,讓更多開發(fā)者能在技術(shù)顧慮之外,將更多的精力和時間投入到創(chuàng)意當中。

        如此一來,手機用戶們自然喜聞樂見:最新鮮的技術(shù)能以各種好玩的創(chuàng)意形式,在手機里直接體驗到。

        對于廠商而言,應(yīng)用的繁榮則構(gòu)成生態(tài)循環(huán)中最為重要的一個節(jié)點,對外吸引更多用戶,對內(nèi)匯聚更多優(yōu)秀的開發(fā)者。

        甚至,華為如今還更進一步,不僅面向HarmonyOS,還把HMS Core的能力釋放給了安卓和iOS應(yīng)用開發(fā)者。

        臺子全面鋪開,就等移動應(yīng)用開發(fā)者們來登臺表演了。關(guān)鍵是,如果你還有不解之處,華為還打算讓技術(shù)大牛好好同你說道說道。

        今晚19:00,「HMS Core Discovery直播第16期」,專門講的就是ML Kit機器學(xué)習(xí)服務(wù)的語音語言類能力,包括TTS、文本翻譯、同聲傳譯等。

        如果你感興趣,趕緊約起來,到官網(wǎng)了解更多信息吧~

        參考鏈接:
        https://developer.huawei.com/consumer/cn/doc/development/hiai-Guides/ml-asr-0000001050066212?ha_source=hms2

        官網(wǎng)鏈接:

        https://developer.huawei.com/consumer/cn/hms/huawei-mlkit?ha_source=hms2

        — 完 —

        本文標簽: 董宇輝  翻譯  語音識別  直播  傳譯