2023成都積分入學(xué)什么時(shí)候開始申請
2023-01-31
更新時(shí)間:2022-08-21 16:05:22作者:未知
羿閣 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
有了這個(gè)發(fā)明,以后演員拍戲再也不用摳圖了?
答:可以直接一鍵合成。(手動狗頭)
讓我們趕緊來看看,這個(gè)由蘋果最新研發(fā)的NeuMan框架:
只需輸入一段10s左右的人物視頻,就能合成該人物在新場景下做著各種新動作的影像。
前空翻?so easy!
跳舞那也是不在話下。
這妖嬈的舞姿,看來NeuMan心里也有一個(gè)舞魂~
有網(wǎng)友看完就表示:喔~簡直是電影界未來的發(fā)展方向。
目前,有關(guān)NeuMan的研究論文已被ECCV’22收錄,并且已在GitHub上開源。
在介紹NeuMan的原理之前,讓我們再來欣賞幾個(gè)酷炫的例子~
如下圖所示,左上角是輸入的訓(xùn)練視頻,左下角是新的背景,右邊則是合成后小哥在新背景下跳躍的效果。
不僅是跳躍這種常規(guī)操作,廣播體操也完全沒問題。
更厲害的是,NeuMan還可以將上面例子中的兩個(gè)人合成到一起。
再加上一個(gè)人,立馬變成魔性的廣場舞視頻。
這微笑的小表情,真的很難解釋不是本人親自跳的(手動狗頭)。
那么話說回來,這個(gè)神奇的NeuMan背后的原理是什么呢?
基于NeRF的新突破
事實(shí)上,自從伯克利和谷歌聯(lián)合打造的NeRF(Neural Radiance Fields神經(jīng)輻射場)橫空出世,各種重建三維場景的研究層出不窮。
NeuMan原理也是基于此,簡單來說,就是用單個(gè)視頻訓(xùn)練一個(gè)人物NeRF模型和一個(gè)場景NeRF模型,然后再合成在一起生成新的場景。
首先,在訓(xùn)練場景NeRF模型時(shí),我們先從輸入的視頻中提取相機(jī)姿態(tài)、稀疏場景模型和多視角-立體深度圖。
對于原視頻中被人體遮擋的部分,則使用Mask R-CNN進(jìn)行圖像實(shí)體分割,將人體掩模膨脹4倍,以確保人體被完全遮蔽。此時(shí),就能做到僅在背景上訓(xùn)練場景NeRF模型。
至于人體NeRF模型訓(xùn)練,研究人員引入了一種端到端的SMPL優(yōu)化(end-to-end SMPL optimization)和糾錯神經(jīng)網(wǎng)絡(luò)(error-correction network)。
SMPL(Skinned Multi-Person Linear Model)是一種基于頂點(diǎn)的人體三維模型,能夠精確地表示人體的不同形狀和姿態(tài)。
如下圖所示,使用端到端的SMPL優(yōu)化的人體模型,能夠更好地表現(xiàn)人體的典型體積。
糾錯神經(jīng)網(wǎng)絡(luò)則是用來彌補(bǔ)SMPL模型無法表達(dá)的細(xì)節(jié)。值得一提的是,它只在訓(xùn)練過程中使用,在進(jìn)行全新場景渲染時(shí)會被放棄,以免造成過度擬合。
接下來,在兩個(gè)模型對齊的階段,研究人員先使用COLMAP解決任意尺度下的對齊問題。然后通過假設(shè)人類始終與地面有至少一個(gè)接觸點(diǎn),來進(jìn)一步估計(jì)該場景的比例。
最后,再應(yīng)用SMPL網(wǎng)格和場景的點(diǎn)云疊加,就形成了新圖像的渲染效果。
最終成品顯示,該場景NeRF模型方面模型能夠有效地去除場景中的人類,并在有限的場景覆蓋下生成高質(zhì)量的新背景渲染圖像。
人物NeRF模型方面也能很好的捕捉人體的細(xì)節(jié),包括袖子、衣領(lǐng)甚至衣服拉鏈,甚至在渲染新動作時(shí),能執(zhí)行難度極大的側(cè)翻動作。
值得一提的是,不同于現(xiàn)行的其他NeRF模型對訓(xùn)練視頻要求很高,比如需要多個(gè)機(jī)位拍攝、曝光要保持不變、背景要干凈等等,NeuMan的最大亮點(diǎn)是僅通過用戶隨意上傳的單個(gè)視頻就能達(dá)到同款效果。
并且,在分別輸入六組不同的視頻后,數(shù)據(jù)顯示,與此前方法相比,NeuMan的方法生成的視頻渲染質(zhì)量最佳。
不過,研究團(tuán)隊(duì)也承認(rèn),NeuMan的設(shè)計(jì)目前還存在一些缺陷。
例如,由于人在活動時(shí)手勢的變化細(xì)微又多變,因此生成視頻中對手部細(xì)節(jié)的把握還不是很準(zhǔn)確。
另外,在NeRF模型渲染時(shí),由于系統(tǒng)假設(shè)人類始終與地面有至少一個(gè)接觸點(diǎn),因此NeuMan不能適用于人與地面接觸為零的視頻,比如人做后空翻的視頻。
要想解決這個(gè)問題,需要更智能的幾何推理知識,這也是未來研究的一個(gè)發(fā)展方向。
研究團(tuán)隊(duì)
這項(xiàng)研究由蘋果機(jī)器學(xué)習(xí)研究中心和英屬哥倫比亞大學(xué)合作完成。
第一作者Wei Jiang,是英屬哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)專業(yè)的一名四年級博士生,目前在蘋果機(jī)器學(xué)習(xí)研究中心實(shí)習(xí)。
主要研究方向是新視角合成、視覺定位和三維視覺。
他還是英屬哥倫比亞大學(xué)計(jì)算機(jī)視覺實(shí)驗(yàn)室的一員,導(dǎo)師是Kwang Moo Yi 教授。
碩士畢業(yè)于波士頓大學(xué)計(jì)算機(jī)科學(xué)專業(yè),本科畢業(yè)于浙江工業(yè)大學(xué)軟件工程專業(yè)。
參考鏈接:
[1]https://twitter.com/anuragranj/status/1559606408789708800
[2]https://arxiv.org/abs/2203.12575
[3]https://machinelearning.apple.com/research/neural-human-radiance-field
[4]https://github.com/apple/ml-neuman
[5]https://jiangwei221.github.io/