中文字幕亚洲欧美日韩在线不卡,亚洲欧美日产综合在线网性色,思思久久精品6一本打道,综合视频中文字幕

    <sub id="dxmnt"><ol id="dxmnt"></ol></sub>

      1. 谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風(fēng)格能隨意轉(zhuǎn)換

        更新時(shí)間:2022-08-27 16:05:22作者:佚名

        谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風(fēng)格能隨意轉(zhuǎn)換

        給Imagen加上“指哪打哪”的能力,會(huì)變得有多強(qiáng)?

        只需上傳3-5張指定物體的照片,再用文字描述想要生成的背景、動(dòng)作或表情,就能讓指定物體“閃現(xiàn)”到你想要的場景中,動(dòng)作表情也都栩栩如生。



        不止是動(dòng)物,其他物體像墨鏡、書包、花瓶,也都能做出幾乎以假亂真的成品:



        屬于是發(fā)朋友圈也不會(huì)被別人看出破綻的那種。(手動(dòng)狗頭)

        這個(gè)神奇的文字-圖像生成模型名叫DreamBooth,是谷歌的最新研究成果,基于Imagen的基礎(chǔ)上進(jìn)行了調(diào)整,一經(jīng)發(fā)布就在推特上引發(fā)熱議。



        有網(wǎng)友調(diào)侃:這簡直是最先進(jìn)的梗圖生成器。





        目前相關(guān)研究論文已上傳至arXiv。



        幾張照片就能“環(huán)游世界”

        在介紹原理前,讓我們先來看看DreamBooth的各種能力,包括換景、指定動(dòng)作表情服飾、更迭風(fēng)格等。

        如果你是個(gè)“鏟屎官”,有了這個(gè)模型的“換景能力”,就能足不出戶送自家狗子走出家門,凡爾賽宮里、富士山腳下……通通不在話下。



        △光照也比較自然

        不僅如此,寵物的動(dòng)作和表情也都能隨意指定,屬實(shí)是把“一句話P圖”的細(xì)節(jié)拿捏到位了。



        除了上面的“基操”以外,DreamBooth甚至還能更換各種照片風(fēng)格,也就是所謂的“加濾鏡”。

        例如,各種“世界名畫”畫風(fēng)、各種視角的狗子,簡直不要太藝術(shù):



        至于給它們加上裝飾?各種cosplay的小道具,也是小菜一碟。



        除此之外,無論是更換顏色:



        還是更魔幻一點(diǎn),更換物種,這只AI也都能做到。



        那么,如此有趣的效果背后的原理是什么呢?

        給輸入加個(gè)“特殊標(biāo)識(shí)符”

        研究人員做了個(gè)對比,相較于其他大規(guī)模文本-圖像模型如DALL-E2、Imagen等,只有采用DreamBooth的方法,才能做到對輸入圖像的忠實(shí)還原。

        如下圖所示,輸入3張右邊表盤上畫著黃色“3”的小鬧表,其中DreamBooth生成的圖像完美保留了鐘表的所有細(xì)節(jié),但DALL-E2和Imagen幾次生成的鐘都與原來的鐘“有那么點(diǎn)差異”。



        △李逵和“李鬼”

        而這也正是DreamBooth最大的特點(diǎn)——個(gè)性化表達(dá)

        用戶可以給定3-5張自己隨意拍攝的某一物體的圖片,就能得到不同背景下的該物體的新穎再現(xiàn),同時(shí)又保留了其關(guān)鍵特征。

        當(dāng)然,作者也表示,這種方法并不局限于某個(gè)模型,如果DALL·E2經(jīng)過一些調(diào)整,同樣能實(shí)現(xiàn)這樣的功能。

        具體到方法上,DreamBooth采用了給物體加上“特殊標(biāo)識(shí)符”的方法。

        也就是說,原本圖像生成模型收到的指令只是一類物體,例如[cat]、[dog]等,但現(xiàn)在DreamBooth會(huì)在這類物體前加上一個(gè)特殊標(biāo)識(shí)符,變成[V][物體類別]。

        以下圖為例,將用戶上傳的三張狗子照片和相應(yīng)的類名(如“狗”)作為輸入信息,得到一個(gè)經(jīng)過微調(diào)的文本-圖像擴(kuò)散模型。

        該擴(kuò)散模型用“a [V] dog”來特指用戶上傳圖片中的狗子,再把其帶入文字描述中,生成特定的圖像,其中[V]就是那個(gè)特殊標(biāo)識(shí)符。



        至于為什么不直接用[V]來指代整個(gè)[特定物體]?

        作者表示,受限于輸入照片的數(shù)量,模型無法很好地學(xué)習(xí)到照片中物體的整體特征,反而可能出現(xiàn)過擬合。

        因此這里采用了微調(diào)的思路,整體上仍然基于AI已經(jīng)學(xué)到的[物體類別]特征,再用[V]學(xué)到的特殊特征來修飾它。

        以生成一只白色的狗為例,這里模型會(huì)通過[V]來學(xué)習(xí)狗的顏色(白色)、體型等個(gè)性化細(xì)節(jié),加上模型在[狗]這個(gè)大的類別中學(xué)到的狗的共性,就能生成更多合理又不失個(gè)性的白狗的照片。

        為了訓(xùn)練這個(gè)微調(diào)的文本-圖像擴(kuò)散模型,研究人員首先根據(jù)給定的文本描述生成低分辨率圖像,這時(shí)生成的圖像中狗子的形象是隨機(jī)的。

        然后再應(yīng)用超分辨率的擴(kuò)散模型進(jìn)行替換,把隨機(jī)圖像換成用戶上傳的特定狗子。



        研究團(tuán)隊(duì)

        DreamBooth的研究團(tuán)隊(duì)來自谷歌,第一作者是Nataniel Ruiz。

        Nataniel Ruiz是波士頓大學(xué)圖像和視頻計(jì)算組的四年級博士生,目前在谷歌實(shí)習(xí)。主要研究方向是生成模型、圖像翻譯、對抗性攻擊、面部分析和模擬。



        論文鏈接附在文末,感興趣的小伙伴們趕緊來看看吧~

        論文地址:
        https://arxiv.org/abs/2208.12242
        參考鏈接:
        [1]https://dreambooth.github.io/
        [2]https://twitter.com/natanielruizg/status/1563166568195821569
        [3]https://natanielruiz.github.io/

        本文標(biāo)簽: 標(biāo)識(shí)符  ai  生成器  原理  imagen