最近 NVIDIA 發布 StyleGAN3 源代碼,一種基於生成逆向神經網絡 (GAN) 的機器學習系統,用於合成逼真的人臉圖像。
風格GAN3 可用於下載在集合中訓練的即用型訓練模型 Flickr-Faces-HQ (FFHQ),其中包含 70 萬張高質量人臉 (1024 × 1024) 的 PNG 圖像。 此外,還有基於AFHQv2(動物面部照片)和Metfaces(古典繪畫肖像中的人臉圖像)集合構建的模型。
關於 StyleGAN3
設計 專注於人臉,但可以訓練系統生成任何類型的對象, 比如風景和汽車。 更重要的是, 提供了用於神經網絡自學習的工具 使用您自己的圖像集。 需要一張或多張 NVIDIA 顯卡 (推薦使用 Tesla V100 或 A100 GPU)、至少 12GB 的 RAM、PyTorch 1.9 和 CUDA 11.1+ 工具包。 為了確定接收到的人臉的人工性質,正在開發一種特殊的檢測器。
系統 允許根據幾張臉的特徵的插值合成一張新臉的圖像,結合它們的固有特徵,除了使最終圖像適應所需的年齡、性別、頭髮長度、微笑特徵、鼻子形狀、膚色、眼鏡、攝影角度之外。
發電機 將圖像視為樣式的集合,自動分離特徵細節 (雀斑、頭髮、眼鏡)的一般高級屬性(姿勢、性別、與年齡相關的變化),並允許它們通過加權因子與主導屬性的定義任意組合,從而生成圖像它們顯然與實際照片無法區分。
StyleGAN 技術的第一個版本(2019 年發布),隨後是 2 年 StyleGAN2020 的改進版本,提高了圖像質量並去除了一些偽影。 同時,系統保持靜態,即不允許逼真的動畫或面部動作。 在開發 StyleGAN3 時,主要目標是使該技術適用於動畫和視頻。
StyleGAN3 使用重新設計的非鋸齒成像架構ay 提供了新的神經網絡訓練場景,還包括用於交互式可視化 (visualizer.py)、分析 (avg_spectra.py) 和視頻生成 (gen_video.py) 的新實用程序。 該實現還減少了內存消耗並加快了學習過程。
StyleGAN3 架構的一個關鍵特徵是以連續過程的形式轉換到神經網絡中所有信號的解釋,這使得通過形成部分來操縱相對位置成為可能,而不是依賴於單個像素的絕對坐標。圖像,但固定到所表示對象的表面。
而 在 StyleGAN 和 StyleGAN2 中,在構建期間捕捉到像素會導致動態渲染問題例如,當圖像移動時,出現皺紋和毛髮等小細節的不匹配,這些細節似乎與人臉圖像的其餘部分分開移動,此外在 StyleGAN3 中這些問題都得到了解決,該技術具有變得非常適合視頻生成。
最後, 也值得一提 的公告 英偉達和微軟創造最大的 MT-NLG 語言模型 基於具有“變革性”架構的深度神經網絡。
該模型涵蓋了 530 億個參數,並使用了 4480 個 GPU 池 用於訓練(560 個 DGX A100 服務器,每個服務器有 8 個 100 GB 的 A80 GPU)。 該模型的應用領域被稱為自然語言中的信息處理問題解決,例如預測未完成的句子的完成、回答問題、閱讀理解、在自然語言中形成結論以及分析詞義的歧義。
如果你有興趣了解更多,你可以查看StyleGAN3的細節 在下面的鏈接中。