AI

CG News

AdobeがAIロトブラシとGPUレンダラーを搭載したAfter Effectsを発表

AdobeがAIロトブラシと、GPU ベースのレンダー エンジンを搭載したAfterEffectsのベータ版を発表しました。AfterEffectsは近年3D関連機能の強化が増えてますね。Substance Stagerと同じレンダラーかな?

https://blog.adobe.com/jp/publish/2023/09/13/cc-video-ibc-2023-adobe-unveils-powerful-new-ai-and-3d-features-in-adobe-premiere-pro-and-adobe-after-effects-with-enhanced-storage-capabilities-in-frame

 

Adobe After Effects(ベータ版)の新機能

真の3Dワークスペース

コンポジションに3Dモデルをネイティブに読み込み、統合された空間上で操作しながら奥行きと深みを加えることが可能になりました。イメージベースドライトを使い、任意の画像を環境光に設定し、補完的なライティングやシャドウを設定すれば、モデルをシーンにリアルに配置できます。

また、先進的な3Dレンダラーの搭載により、高品質なアンチエイリアスと透明度を併せもった美しい3Dモーショングラフィックスを高速に生成することができます。さらに、コンポジションに2Dと3Dを合成するためのユニークな方法を追加しています。ディスプレイスメントマップ、Vector Blur、計算エフェクトなど別のレイヤーを参照するエフェクトを使えば、3Dモデルレイヤーをソースとして特有のスタイルを適用したレンダリングを作成することもできます。

 

AI搭載ロトブラシ

人気のロトブラシツールに新しいAIモデルを搭載しました。手足や毛髪の重なりや透明度のあるエレメントなど、切り抜きが難しいオブジェクトも、背景から簡単に分離できます。この追加機能により、エディター、モーションデザイナー、VFXアーティストは、面倒なロトスコープ作業にかかる時間を削減し、プロジェクトのクリエイティブな側面に集中することができます。

 

 

Adobe Premiere Pro(ベータ版)の新機能

スピーチを強調

「スピーチを強調」は、AIを使って背景のノイズを魔法のように消し去り、録音状態が悪い会話の音質をプロスタジオで録音されたかのように向上させます。ミックス量スライダーを操作し、背景のノイズを適切なレベルに留めながら残すことも可能です。

また、新しい「オーディオタイプの自動タグ付け」機能は、AIを使ってクリップを「会話」、「ミュージック」、「効果音」、「環境音」に分類します。分類済みのオーディオクリップをクリックすると、そのタイプに応じて最も関連性の高いツールが自動的に表示されます。スピーチを強調と併用すれば、エディターは数回のクリックでプロレベルのオーディオ品質を実現し、貴重な時間を節約することができます。

スピーチを強調とオーディオタイプの自動タグ付けは、エッセンシャルサウンドパネル にあります。どちらの機能もバックグラウンドで処理されるので、作業の手を止める必要はありません。

 

文字起こしベースの編集の強化

今年初めに「文字起こしベースの編集」がAdobe Premiere Proに導入され、文字起こししたテキストのコピー&ペーストだけで簡単にラフカットを作成できるようになりました。この機能がさらに進化しました。

文字起こしベースの編集に、会話に含まれる「あの」や「えーと」を自動的に識別する「フィラーワードの 検出」機能が追加されました。フィラーワードだけでなく無音の「間」や、その他の不要な言葉を一括処理によりワンステップですばやく削除することも可能です。この機能は、文字起こしベースの編集ワークスペースの文字起こしパネルからアクセスできます。

 

パフォーマンスの最適化

最新バージョンのAdobe Premiere Proでは、タイムラインのパフォーマンスが5倍向上し、より高速な編集が可能になりました。また、互換性のないプラグインを検索してシステムパフォーマンスを最適化する「エフェクトマネージャー」などの新しいツールも追加されています。また、プロジェクトの「自動復元」機能により、問題が発生した場合でも、中断したところからシームレスに作業を再開できます。

 

カラー処理

刷新されたカラー設定とトーンマッピングの強化で、美しいカラーが簡単に手に入ります。自動トーンマッピングが改良され、新たに3つのトーンマッピング手法が追加されました。また、Lumetriカラーパネル上のUIが再編成されたほか、LUTの管理と再リンクも強化しています。さらに、新しいビューアガンマの設定で補正することで、期待通りのカラーでQuickTime Playerに表示させることができるようになりました。

 

コミュニティからのトップリクエスト

Adobe Premiere Proで一日中作業をしているエディターのために、最小で最大の効果を生むような数々の機能強化も実施しています。新規プロジェクトをすばやく立ち上げるのに便利なプロジェクトテンプレート、書き出し時のカスタム保存先の保持、メタデータとタイムコードバーンインエフェクトの追加、マーカーのバッチ選択などがそれで、他にも多くの細かい、しかし強力なワークフローの強化がなされています。これらの機能は、プロのビデオクリエイターのコミュニティから強く要望されていたものです。

参考資料

トレーニングデータの芸術と技術

VFXにおけるAI、機械学習に関する記事が公開されていたのでメモしておきます。

https://www.fxguide.com/fxfeatured/the-art-and-craft-of-training-data-yes-training-data/

 

トレーニングデータの芸術と技術

機械学習の学習データ構築に活用されるVFX

機械学習(ML)は、VFXのさまざまな問題を解決するためのアプローチとして注目を集めています。しかし、MLがVFXのために何ができるかが注目される一方で、MLソリューションのトレーニングデータを作成することに焦点を当てたVFXの新しい分野も存在します。Houdini、Nuke、その他多くのVFXツールは、トレーニングデータの生成にクリエイティブに使用されており、この傾向はさらに拡大することが予想されます。より深い理解を得るためには、MLプログラムの根本的な性質を調べる必要があります。

 

学習ソリューションとしてのML

機械学習ソリューションを作る前に、解決すべき問題と、MLアプローチが機能するために必要なことを理解することが不可欠です。特に、どのようなデータがすでに世の中に存在しているのか、そしてそのデータを使って問題を解決できるのか、ということです。一見すると、可能な限り大量の "ground truth "や完全な例が欲しいだけだと思われるかもしれないが、それは現代のMLを効率的に訓練する方法ではありません。

教師あり学習データと教師なし学習データは、機械学習で使われる2種類のデータです。教師あり学習データは、機械学習モデルの学習に使われるラベル付きデータです。つまり、入力データには正しい出力がラベル付けされ、モデルは入力データに基づいてこれらの出力を予測するように学習しkます。一方、教師なし学習データは、機械学習モデルの学習に使用されるラベル付けされていないデータです。この場合、モデルは、何を探すべきかについての特別なガイダンスなしに、データのパターンと関係を学習することを意味します。

教師あり学習データと教師なし学習データにはそれぞれ長所と短所があり、そのどちらを選択するかは、解決しようとする特定の問題と利用可能なデータに依存します。しかし、MLに詳しくない人にとっては、どちらの場合もデータが多ければ多いほど良いと思われがちです。そうではありません。

どちらのMLモデルにも、データをキュレーションするためのアートとサイエンスがあります。 例えば、オブジェクトのテクスチャを完全に「間違った」ものに変えると、ニューラル解を構築する際に、学習データをよりジオメトリに集中させ、表面特性から偏らせる効果があります。植物の葉を識別する分類器があったとして、その植物の品種を特定する最良の手がかりとなるのは、本当は葉の形状やエッジの詳細であることがわかっているとします。データセットのサブセットを作成し、表面特性を「低く評価」することで、自動車の塗料で作られたような、奇妙な表面特性を持つ葉のセットを混ぜることができます。自然界の葉が車の塗料で栽培されることはないので、これは明らかに誤りですが、MLから見れば植物の品種を識別するために表面特性に頼ることができなければ、葉の形状により傾倒するでしょう。つまり、VFXアーティストが車の塗料で植物を作り、MLのソリューションを指示したりキュレーションしたりするために雇われる可能性があります。 これは合成データの例です。この特別なアプローチは、「ディストラクター」を使ったドメインランダマイゼーションとして知られています。

 

合成データ

ビジュアル エフェクト ツールを使って合成データを作成することは、ML用の大規模で多様なデータセットを生成する方法として、ますます一般的になってきています。この種のデータは、実世界の学習データが不足している場合や、実世界のデータを入手するのが困難または高価な場合に使用されることが多いです。VFXソフトウェアは、リアルな仮想環境、オブジェクト、キャラクターを作成し、有用なシナリオで操作したり撮影したりするために使用できます。VFXを使用することで、稀な出来事や危険な状況など、現実では入手が困難または不可能なデータを作成することができます。さらに、照明、天候、カメラアングルを制御できるため、データ生成プロセスや入力可能性のバリエーションをよりコントロールできます。また、上述したように、MLソリューションの舵取りをする方法として、非常に明らかに「間違った」データを作成するために使用することもできます。 その結果、合成データはMLやコンピュータ・ビジョンのアプリケーションにとって不可欠なツールになりつつあります。

COVIDの期間中、多くの企業がVFXベースの合成データの利点を発見しました。例えばアメリカのある農業会社は、グラウンドトゥルースデータ用の写真を撮影するために人を畑に呼ぶことができなかったので、代わりに合成データでトレーニングを行いました。VFXではMLを訓練してrotoを向上させたい場合、人間のアーティストがセグメンテーションマップのために様々な個々のフレームに注釈をつけたり、ロトスコープで切り出したりすることができますが、アニメ化されたデジタルヒューマンを使って合成的にセグメンテーションマップを作成するのに比べて、ノイズが入ってしまいます。ここでは「ロト」セグメンテーションは、実際に3Dシルエットがあることに基づいてフェイクされていますが、非常に正確なものになります。100%正確で高品質なデータを作成することができ、従来の手法で見られるような欠陥は一切ありません。

合成トレーニングデータとは、人工的に生成されたデータのことで、現在すべての主要AI企業でMLモデルのトレーニングに使用されています。NvidiaやGoogleをはじめとする多くの企業が、生成的敵対ネットワーク(GAN)、ニューラルネットワーク、VFXシミュレーションツールなどを使って合成トレーニングデータを生成しています。

合成データは、以下のような様々な手法を用いて生成することができます。

  • データの増強
  • GAN推論
  • 3Dアニメーション
  • シミュレーション
  • ディストラクター
  • アブレーション
  • 合成少数オーバーサンプリング技術
  • 交絡因子の修正など
  • その他多くの方法があります

合成訓練データの目的は、機械学習モデルの訓練に使用できる大規模で多様なデータセットを作成し、その精度を向上させることです。なぜなら、合成学習データは多くの場合、より効率的に生成され、役に立つ対応する追加メタデータを提供してくれるからです。例えばあるアプリケーションの学習に、デジタルヒューマンの顔を使用することができます。それは、より正確でリアルに見えるからではなく、非常に正確な表面法線を提供できるからです。

 

多ければ良いというものではない

MLソリューションを作成し、特にキュレーションするには、解決しようとする問題、使用されるデータ、適用されるMLアルゴリズムを深く理解する必要があります。これは高度なスキルと要求の高い(人間の)役割となり得ます。構造化されたアプローチに従い、継続的に反復と改善を行うことで、MLソリューションは複雑な問題を解決し、イノベーションを推進するための強力なツールとなり得ます。MLが膨大なデータを持っているからといって、必ずしも精度が高いとは限りません。アカデミー賞受賞者のライアン・レイニーは、2021年にfxguideに対し、彼の長編ドキュメンタリー映画『Welcome to Chechnya』のためのトレーニングデータの撮影について、このように説明しています。

 

バイアス

長編映画を制作する際、レイニーは適切なトレーニングクリップの選択に集中することが重要なステップであることに気づきました。どの証人の顔にも置き換え可能な膨大なトレーニング素材から、注意深く厳選されたサブセットのみが使用されました。このプロセスでは、トレーニングデータを追跡し、ヘッドアングル、色温度、照明のマッチングに基づいてフレーム/クリップのセットを自動的に生成するために、いくつかの機械学習ツールが導入されました。特定のトレーニングデータは、データセットの「顔」エンコーディングに基づき、NumPy - ユークリッド距離、「ビッグテーブル」ルックアップ手法を使用してマスターデータベースから引き出されました。顔のエンコーディングは、顔の角度と表情に基づいています。

各俳優は、同じ演技を複数のアングルで撮影するために、周囲に複数のカメラを配置して撮影されました。カメラのセットアップ中、実際のシャッターコントロールは同期して制御することができませんでした。その結果、ライアンはただカメラを回し、テイク間のカットはしませんでした。その結果、意図的なテイクと、俳優が片側に寄って監督と話している間のランダムな録音の両方をトレーニング映像として残すことになりました。その結果、トレーニングデータ全体として、俳優の顔の片側(俳優が監督と話すために振り向いたときにカメラに映る側)に偏りが出てしまいました。ライアンは、これこそが避けるべき偏ったトレーニングデータであると指摘しました。

ライアンの例は、トレーニングデータに望ましくないバイアスがあることですが、MLトレーニングの技術に長けていれば、コントロールバイアスを導入することも同様に有効です。MLのソリューションには批判的な目でアプローチすることが重要であり、ハイテクでAIを使っているからといって、そのソリューションが正しいとか優れていると単純に信じてはいけません。基礎となるデータと仮定を調査し、使用されているトレーニングデータの限界を考慮することが不可欠です。

 

 

さらに詳しく知るために、エヌビディアとグーグルのML専門家に話を聞きました。

 

NVIDIA

ポール・キャレンダー氏は、NVIDIAのレプリケーター・チームのテクニカル・アーティストです。NVIDIAは機械学習分野において、間違いなく今世界で最も勢いのある企業であり、その事実は、上場企業としての急速な収益と株価の躍進に反映されています。

NVIDIAには、SimReadyアセットを作成するための開発者ツール一式があります。SimReady(シミュレーション対応)アセットとは、物理的に正確な3Dオブジェクトのことで、正確な物理特性、挙動、メタデータを持ち、シミュレーションされたデジタル世界(および/またはデジタルツイン)で現実世界を表現します。SimReadyアセットは、Universal Scene Description (USD)を使用して構築され、NVIDIAのオープンソース、スケーラブル、マルチプラットフォーム物理シミュレーションソリューションであるPhysXで最大限の精度を得るために、現実世界と同じように動作するように構築されています。

NVIDIAのSIM Readyアセットは、通常のVFX要件を超えるものです。SIM Readyアセットは興味深いもので、ポール・カレンダー氏は、「アセットでは、多くのプロパティや属性をランダム化することができます。 VFXアセットのいくつかの側面は、マテリアルプロパティなど簡単に変更することができますが、一般的には、メッシュを分離したり、異なるピースに分割したりするようなことをしたい場合は、すべてを完全にパラメータ化するのが理想的です」 Sim Readyアセットでは、可能な限り多くのプロパティをプロシージャルにランダム化することができます。

同社のOmniverseツールキットとSDKの一部として、Omniverse Replicatorと呼ばれる特定の合成データ生成があります。これは、合成データ生成に特化したOmniverseの拡張機能です。NVIDIAのOmniverse Replicatorは、研究者や開発者が物理的に正確な合成データを生成し、MLネットワークのトレーニングを加速するためのカスタム合成データ生成(SDG)ツールを簡単に構築することを可能にする中核部分です。ポール・キャレンダー氏は、「これはすべてPythonicで、SDGシミュレーションを作成するためのOmniverseの他のすべての側面と統合されており、合成データを生成するために使用できます」とコメントしています。

MLによるVFXの「トリック」には、一般的なものがたくさんあります。例えば、ビジュアル・オブジェクトの部分的な非表示バージョンを作成するといったものです。もう1つの興味深いMLのコンセプトはアブレーションと呼ばれるもので、ポール・キャレンダー氏はこう説明します。「データセットは、テクスチャのランダム化、照明のランダム化、ノイズの追加など、様々なバリエーションで生成されます。アブレーションは、ランダム化がどの程度パフォーマンスに有効かをテストするために、ランダム化の種類を1つずつ削除するセットを作成します。これは、SDGチームがバリエーションがデータセットにどのような影響を与えるかを理解するのに役立つツールの1つです」

合成データに使用されるVFXに関して、カレンダーはSDG(合成データ生成)の段階を次のように分類しています。

  • アセット
  • シーン構築
  • シミュレーション
  • データ生成

「アセット生成は、伝統的なVFXにとって最大の分野です。なぜなら、"ドメインギャップを埋める "ために様々なアセットや環境が飽くことなく必要とされ、現場の真実に近づくことができるからです」と彼は説明します。「HoudiniとBlenderは、プロシージャルであるため、特に注目に値します」プロシージャル性とSimReadyアセットは、SDGのバリエーションを作成しパラメータ化するためのソリューションの一部です。「私たちは、アセットを取得し、シーンに入力するためのプログラム的アプローチに傾倒する必要があります。そのためには、すべてのアセットが分類によって自分が何であるかを "知っている "必要があります。 理想的には、シーンの生成とキャプチャの実行中にこれを行い、変更できないハードな "ベイクダウン "アセットに頼らないことです。これが、リアルタイム・ソリューションが望ましい理由のひとつです。SDGの修正とレンダリングと生成の速度は、潜在的に非常に速いのです」

コンポジティングのような伝統的なVFXのコンセプトも、SDGに類似しています。「センサーノイズやピクセル色域のマッチング、さらには光の吹き出しのマッチングも、グランドトゥルースにそれらのアーティファクトが含まれている場合には重要になります」このようなアーティファクトは、合成中やグレーディング中に、多くの場合リアルタイムで、あるいはポストプロセスとして適用することができます。「必要な効果を達成するために、OpenCVや他のpythonフレンドリーな画像ライブラリのようなライブラリを使用して、ポスト補強が通常行われます」通常NVIDIAは、シーン自体のライティングのバリエーションなど、主要なバリエーションにマッチさせようとします。「すべてをシミュレートすることで、現実に近づくことができ、シーン内のライトのフォトメトリック特性をマッチさせることで、プログラム的に数値を微調整しても、意味のある一貫した結果を得ることができるからです」

SDGは他ではできないことを解決してくれるので、非常に重要なのです。「画像内の車両が非常に小さく、アノテーションを行う人が、それらがどのクラスの車両であるかを識別できなかった例を見ました。 SDGは、画像内のレンダリングの大きさに関係なく、それらの分類を知ることができます」。この場合、SDGを含めると、AIモデルは遠くの車両を認識する性能をより引き出すことができました。

ポール・キャレンダー氏は、MLは退屈なデータ整理や平凡な作業とは程遠く、SDGは「探偵や錬金術」に似ていると指摘します。「AIは人間のように特徴を認識したり検出したりはしません。だから、何かがどのように見えるかについて、私たち自身の先入観に従うだけでは必ずしも正しいとは限らないのです」 このため、優れたSDGを生成することは、シーンを生成するアーティストと、データ上でモデルをテスト・訓練するMLエンジニアの間の反復プロセスであると彼は考えています。

「私たちのチームは、シーンの本質的な部分を探り出し、合成的にシステムを再構築して、大量のデータをプロシージャルに構築しています。VFX(およびゲーム開発)には、まさにこのような長い歴史があると常に感じています。リファレンスからビジュアルを作成し、結果を達成するために、多くの場合プロシージャルで、多くの場合シミュレーションとして、システムを考案するのです」

結局のところ、ポール・キャレンダーのようなアーティストは、SDGを成功させるために、VFXやゲーム業界で一般的なツールを深く利用しています。「それはエキサイティングな空間であり、スキルのマッピングは非常にうまくいっています」

 

Google

GoogleのSynthetic Teamは、プロダクションで使用される一般的なVFXツールの多くを使用しています。Houdini、Blender、Maya、NukeなどのDCCツールです。「パイプラインとワークフローは、過去のVFXにインスパイアされていますが、VFXハウスと同一ではない環境で統合されています」とGoogleのルカ・プラッソ氏(元Dreamworksシニアテクニカルアーティスト)はコメントしています。「私たちは、多くのカスタムおよび独自のツールやコードをミックスに加え、テックアーティストが私たちのエンジニアリングスタッフと一緒に働いています」と指摘します。「機械学習における合成データの役割と使い方は日々進化しており、データの生成と消費の方法はプロジェクトによって異なります。

Googleのチームは、世界を "見て理解する "ためのアルゴリズムを訓練するために使われる、一般的な合成3Dシーンに焦点を当てています。多くの場合、この世界は複雑で、三次元で、アニメーションで、GANや同様のアルゴリズムではまだ再現できない多くの情報の層でできています。同時に、新しいテクニックは "伝統的な "パイプラインに居場所を見つけます。例えば、モーションは単にモーキャップで生成するのではなく、合成することができます。シーンや写真のリライティングやリレンダリングは、例えばNeRFアルゴリズムを使って、新しいエキサイティングな方法で行うことができます。 (NeRFの説明については、fxguideの記事を参照)

チームにとっての挑戦は、合成パイプラインを大規模に開発しながら、こうした急速な変化に対応できるようにすることです。合成データがMLで有用なのは、現実世界では必要なスケールで簡単に取得できないデータを生成できるからです。合成データは、人間のアノテーターによってもたらされる "ノイズ "に悩まされることなく、正確で、アノテートされ詳細です。「多くの場合、合成データは、実世界からデータを収集し始める前であっても、新しいアルゴリズムの設計のブロックを解除することができます」と彼は説明します。

合成データシステムの設計における課題のひとつは、バイアスにどう対処するかということです。「例えば、アルゴリズムにペンを認識させる必要がある場合、形状、材質、外観、手触りを制御し、これまでに製造されたあらゆるペンを生成できる手続き的システムを設計します。このようなシステムを設計する際には、例えばボールペンのみを設計するような偏りが生じないようにする必要があります。実際のデータを取得し始めると、そのようなバイアスを取り除き、実際のデータにできるだけ近いものを作成するために、デザインの選択を常に再評価する必要があります」HoudiniのようなプロシージャルVFXツールは、チームが取り組まなければならない多くの作業に適しています。「私たちのチームは、新しいハードウェアセンサーが利用可能になる前にデータを作成するよう求められることがよくあります。このようなアプローチは、従来のDCCツールで可能なことをシミュレートし、研究開発を解き放ちます」

「以前はPDI/ドリームワークスで子供や両親の観客のために映画を作っていたのに、今はアルゴリズムだけが見るような映画を作るなんて冗談だ......僕はアルゴリズムのために映画を作るんだ。幸いなことに、続編を作るとき、アルゴリズムはうるさく言わないんだ!]- ルカ・プラッソ

スケール設計もまた別の課題です。MLアルゴリズムの中には、非常に多くのデータを必要とするものがあります。「数千の画像/シーン/バリエーションが必要なのではなく、数百万、数千万が必要な場合もあります。そのような場合、7分の長編映画クリップを作成するために設計されたVFXのようなパイプラインを、作成する必要があるすべてのデータセットに対して複製することができます」

Googleも独自のパイプラインや技術を持っており以前から実装し取り組んでいるが、彼らのMLエンジニアはSIGGRAPHやCVPRのようなカンファレンスで研究成果を発表する傾向があります。「グランド・トゥルースの実データは、これらのシステムのほとんどを設計する上で非常に重要です。私たちの仕事の根拠となり、アーティストがワークフローに不必要なバイアスを持ち込むのを防ぎます。私たちの仕事がうまくいけば、私たちのデータは(必要とされる品質とスケールの限界内で)可能な限りグランドトゥルースに近いものになります」

Googleはまた、トレーニングデータのキュレーションも機械学習プロセスの重要な部分としています。「キュレーションは、合成データと実データの測定と正確なラベリングに大きく関係しています。これによってML研究者は、トレーニングで安全に使用できるデータを特定し、比較対照し、より良いアルゴリズムのパフォーマンスを達成するために、実データと合成データの適切な "比率 "を見つけることができます」

 

合成データの最も単純な形

合成データは、現実世界で撮影されたグラウンド・トゥルース・データの代わりとなるオリジナルの画像やデータを新たに作成するために使用する方法と、オリジナルのグラウンド・トゥルース・トレーニング・データを補強、補足、構築するために使用する方法があります。2つ目のケースは、トレーニングデータとして使用される可能性のある画像を取得し、それを反転させ、回転させ、人間の目には些細に見えるが、実際にはトレーニングデータに膨大な乗算効果をもたらすような方法で調整する自動化されたプロセスが存在します。PyTorchのような様々な機械学習ツールでは、学習データを9倍にする自動化された機能を備えていることも珍しくありません。アフィン変換とは、画像を反転(ミラーリング)するように、直線や平行度は保持するが、必ずしもユークリッド距離や角度は保持しない幾何学的変換のことです。

 

次元と深度

機械学習では、次元とはデータ・ポイントを表現するのに使われる特徴や変数の数を指す。例えば、データ・ポイントは3つの次元を持ち、その高さ、幅、深さを表す。データセットの次元数は、MLモデルの精度に大きな影響を与える可能性があります。機械学習における深さとは、ニューラルネットワークのレイヤーの数を指します。ニューラルネットワークは複数のレイヤーから構成され、それぞれが情報を処理するニューロンを含みます。ネットワークのレイヤー数はその深さを決定し、これはモデルの精度に大きな影響を与えます。より深いネットワークは、データのより複雑な関係をモデル化することができるため、より正確な結果を出すことができます。トレーニングデータのキュレーションの重要な側面の1つは、MLパイプラインの次元と深さに基づいて、適切な量と種類のデータを提供することです。

 

交絡因子の修正

MLにおける重要な洞察は、交絡因子がニューラルネットワークモデルの予測性能に悪影響を与える可能性があるということです。MLは複雑な問題を解くのに強力だが、欠点がないわけではありません。MLの最大の課題の1つは交絡因子の存在です。交絡因子とは、MLモデルの精度に大きな影響を与えうるが、モデルの出力には直接関係しないデータ中の変数のことです。例えば、画像中の猫を識別するために学習されたMLモデルにおいて、猫の毛色は、猫を識別するというタスクには直接関係しないが、モデルの精度に影響を与える可能性があるため、交絡因子となる可能性があります。これに対処するためには、モデルを学習する前に、データ中の交絡因子を特定し、それを考慮することが重要です。これは、特徴選択、データの前処理、またはデータのキュレーションなどのテクニックを使用することによって行うことができます。

これらの課題の1つは、このような交絡因子の存在に起因する、ディープラーニング手法によって抽出された「誤ったシグナル」を除去することです。このような認識ミスを認識した上で、経験的な証拠によると、ディープニューラルネットワークは、一見よく訓練されたディープラーニングモデルが、ラボで収集/管理されたデータセットでは高い予測力を持つにもかかわらず、外部データセットでは限定的な予測性能を示すような、交絡要因からシグナルを学習することができます。

 

少数特徴とSMOTE

MLにおいて少数特徴とは、他の特徴に比べて出現数が少ないデータの特徴です。これらの少数特徴はMLモデルの精度に大きな影響を与える可能性がありますが、数が少ないために見落とされがちです。少数特徴はバイアスを引き起こし、不正確な結果につながる可能性があるため、モデルを学習する前にデータ内の少数特徴を識別し、考慮することが重要です。オーバーサンプリングやアンダーサンプリングなどのテクニックを使用することで、データセットのバランスをとり、少数特徴が無視されないようにすることができます。さらに特徴選択などのデータ前処理技術も、データ中の少数派の特徴を識別し、考慮するのに役立ちます。

SMOTE(Synthetic Minority Oversampling Technique)は、データセット内の少数特徴の問題に対処するために使用されるML技術です。これは、データセット中の少数特徴に類似した合成データ点を作成することで機能します。これにより、モデルは少数特徴からより良く学習することができ、より正確なモデルが得られます。SMOTEはデータセットに少数派の特徴が少ない場合に特に有効で、データセットのバランスをとり、これらの特徴が無視されないようにするのに役立ちます。

データサイエンティストのJoe Cincottaがfxguideに説明したように、「SMOTEはクラスタリングを使って、十分に表現されていないサンプルの近辺の値を近似します」これは単純な数値には有効です。 複雑な画像データセットの場合は、生成モデルの方がより望まれるものに近いです。画像データセットで少数派の特徴を特定した場合、少数派の画像でのみ学習されたGANや拡散モデルの出力を使用することで、少数派のオーバーサンプリングを実行しようとすることができます。

 

ドロップアウト

ドロップアウトは、オーバーフィッティングを防ぐためにMLで使われるテクニックです。オーバーフィッティングは、モデルが訓練データにフィットしすぎて、未知のデータに汎化できない場合に発生します。ドロップアウトは、訓練中にニューラルネットワークからニューロンをランダムに「脱落」させることで機能しまうす。これによりネットワークは、未知のデータに適用できる、より一般的な特徴セットを学習するようになります。ドロップアウトはモデルの精度を向上させ、オーバーフィッティングの可能性を減らすのに役立ちます。

 

オーバーフィッティングは良いこともある

LAで開催されたSIGGRAPHで、Wētā FXチームは、パンドラの水棲生物メトカイナ一族のサンゴ礁の村の近くの海底に生息する生物のオーバーフィッティングについて語りました。

オーバーフィットは、特定のユースケースのための合成データを生成するために意図的に使用することができます。小さなデータセットにモデルをオーバーフィットさせることで、データ分布の複雑な詳細を捉えることができます。そして、コントロールされたバリエーションや摂動を導入することで、元のデータの特徴を維持した新しい合成例を作成することができます。このテクニックは実世界のデータが限られているが、モデルをより良く一般化したい場合に特に有効です。例えば、Wētā FXのオーバーフィッティングは、注意深くコントロールされ、目的を持って行われています。彼らの目標は、未知のデータに対してパフォーマンスの低いモデルを作成することではなく、学習データから複雑なディテールを捉えるモデルの能力を活用し、この知識を制御された方法で使用して、類似しているが独創的な水中植物や海藻を大量に生成することです。

 

MLアルゴリズムに世界を教えるために映画を作る。

NVIDIAの新しいマゼンタグリーンスクリーンアプローチは、今年のSIGGRAPHでも注目されました。この研究は、グリーンスクリーンをキーイングするための新しいアプローチとして、いくつかの一般紙で取り上げられました。しかし、これは、トレーニングデータとして使用するための非常に高品質なマットを生成する新しい方法であるという、主要なポイントを見逃していました。 前景の俳優のカラー画像と高品質のアルファチャンネルを同時に記録することにより(特別なカメラや手動のキーイング技術を必要としない)、非常に正確なマットを素早く作成する自動化された方法を提供します。

チームは、緑色の背景に俳優を録画し、赤と青の前景照明のみで彼らを照らす新しいアプローチを設定しました。これは、分離と最新のCMOSカメラの設計方法によって非常にうまく機能します。この構成では、緑色のチャンネルは、明るく均一な背景を背景にした俳優のシルエットを示し、俳優のアルファチャンネルの逆であるホールドアウトマットとして直接使用することができます。次に彼らはMLを使用して前景の緑チャンネルを復元するために、まったく別のAIを使用しますが、前景の再色付けにのみ使用します。そのために、白色照明で照らされた俳優のシーケンス例を用いて色付けモデルを学習させ、説得力のある前景の結果を得ています。真の問題は、再色付けにMLを使用することではなく、マットの品質です。

彼らの技術で出力された高品質のアルファチャンネルデータは、将来のMLマッティング研究で作られる新世代の自然画像マッティングアルゴリズムのための、格段に優れたトレーニングデータセットを提供します。

 

そして、それは拡大する一方です

特にジェネレイティブ・モデルの急速な発展により、合成データ生成は今後ますます拡大していくでしょう。

参考資料

機械学習を使用したリライティングサービス「SwitchLight」

Beeble社が機械学習を使用したリライティングサービス「SwitchLight」を公開しています。「SwitchLight」は機械学習を使用して俳優を元の背景から削除し、新しい背景に合成すると同時に、新しい環境に基づいて俳優を正しくリライティングします。

韓国の企業がモバイル向けバーチャルプロダクションとして開発した物を、プロのVFX業界向けに方向転換したみたいですね。サイトの画像ファイル名に2バイト文字混在してると、あらあらってなる。

https://www.beeble.ai/

 

SwitchLightで完璧な照明を実現 - AIリライティング-

 

スイッチライト: AIで画像の完璧なライティングを数秒で実現

SwitchLightは、最先端のAIを使用して最適な照明と背景で画像を合成します。あなたの写真に完璧な照明と背景を実現します。

AIを使った超リアルなリライティング

ほんの数秒で超リアルなリライティング効果を実現。SwitchLightは、現実世界の照明をシミュレートしたシャドウとハイライトを生成します!

 

ドラッグ&ドロップで簡単リライティング

SwitchLightのドラッグ&ドロップインターフェースは、リライティングをシンプルにし、複雑な専門知識がなくても素早く簡単にライティングを変更できます。

 

HDRIのアップロードまたはポートレートライティングのコピー

カスタムライティング用のHDRIをアップロードするか、参照ポートレートからライティングをコピーします。当社のAIが肖像画から光情報を抽出し、プロジェクトで正確な照明効果を再現します。

 

プリロードされたライティングプリセット

自然光、スタジオ、サイバーパンク、宇宙照明など、さまざまなシーンですぐに使えるプリセットを数百種類用意しました。

 

 

光の方向と強さを操作

光の方向と強さを操作して、実世界の照明シナリオを正確に表現し、奥行きとリアリズムを向上させます。

 

フルHDと1Kのサポートによる鮮明なビジュアル

デフォルトの1K解像度と最大フルHD解像度をサポートするSwitchLightは、作品を常に高画質で表示し、細部までキャプチャします。

 

高品質な法線とアルベドマップのエクスポート

高品質の法線マップとアルベドマップをエクスポートできます。これらの出力はPhotoshopのような他のソフトウェアで使用することができ、ニーズに合わせてカスタマイズされた柔軟なワークフローを可能にします。

 

効率的なワークフローのためのバッチ推論

バッチ推論機能により、複数のデータ入力を同時に処理することができ、時間を節約し、プロジェクトに合理的なワークフローを提供します。

 

クリエイター、フォトグラファー、VFXアーティスト、デザイナー、その他

SwitchLightは、デジタルアートに取り組むクリエイター、画像をより美しく仕上げたいフォトグラファー、息をのむようなビジュアルエフェクトを制作するVFXアーティスト、ビジュアライゼーションを完璧に仕上げようと努力するデザイナーなど、どのような方にも、あなたの仕事を一変させるツールを提供します。直感的なインターフェイスと強力な機能により、さまざまなプロジェクトに適しており、さまざまな職業のユニークなニーズに応え、創造性を促進します。

 

ビーブルについて

私たちは韓国のソウルにあるAI研究者の専門チームです。私たちは全員6年以上のAI研究経験があり、NeurIPS、ICLR、ICML、CVPR、AAAIなどのトップAIカンファレンスで10以上の論文を発表しています。私たちの焦点は、人類の創造的な可能性を解き放つ革新的なAIベースのソリューションを創造することです。

CG News

AppleがiPad用の Final Cut Pro と Logic Pro を発表

AppleがiPad用の Final Cut Pro と Logic Pro を発表しました。5月24日(水)発売。¥700/月、¥7,000/年のサブスクリプションのようです。

https://www.apple.com/jp/newsroom/2023/05/apple-brings-final-cut-pro-and-logic-pro-to-ipad/

https://www.apple.com/final-cut-pro-for-ipad/
https://www.apple.com/logic-pro-for-ipad/

 

Apple、iPadのためのFinal Cut ProとLogic Proを発表

これらのプロ向けのアプリケーションは、iPadのために設計されたパワフルな機能を搭載し、映像や音楽のクリエイターに究極のモバイルスタジオを提供します

カリフォルニア州クパティーノ Appleは本日、iPadのためのFinal Cut ProおよびLogic Proを発表しました。映像や音楽のクリエイターは、iPadでのみ可能な新しい方法で創造性を発揮できるようになります。iPadのためのFinal Cut ProおよびLogic Proは、直感的で即時に操作できるMulti-Touchによってユーザーがワークフローを強化できる、まったく新しいタッチインターフェイスをもたらします。iPadのためのFinal Cut Proは、映像クリエイターが録画、編集、仕上げ、共有のすべての作業を1台のポータブルデバイスで行える、パワフルなツールセットを導入します。iPadのためのLogic Proは、プロフェッショナルな音楽制作のパワーを、場所を問わずにクリエイターの手に届け、作曲、ビート作成、録音、編集、ミキシングのための洗練されたツールの完全なコレクションを搭載しています。iPadのためのFinal Cut ProおよびLogic Proは、App Storeでサブスクリプションとして5月24日(水)から提供が開始されます。

「iPadのためのFinal Cut ProとLogic Proを発表できることを嬉しく思っています。これにより、クリエイターは新しい方法で、そしてさらに多くの場所で、創造性を発揮できるようになります。iPadの持ち運びやすさ、パフォーマンス、タッチを前提としたインターフェイスに合わせて設計された直感的でパワフルなツールのセットにより、Final Cut ProとLogic Proは究極のモバイルスタジオを提供します」と、Appleのワールドワイドプロダクトマーケティング担当バイスプレジデントであるボブ・ボーチャーズは述べています。

 

iPadのためのFinal Cut Pro

iPadのためのFinal Cut Proは、まったく新しいタッチインターフェイスと直感的なツールを導入し、映像クリエイターに新しいワークフローを解き放ちます。新しいジョグホイールにより編集プロセスがこれまで以上に簡単になり、ユーザーはコンテンツをまったく新しい方法で操作できるようになります。ユーザーは指先でタップするだけで、マグネティックタイムラインを移動したり、クリップを動かしたり、フレーム単位で正確な編集をすばやく行うことができます。さらに、直感的で即時に操作できるMulti-Touchジェスチャーが、ユーザーの創造性を新たな高みへと押し上げます。

ライブ描画を使うと、Apple Pencilで映像コンテンツの上に直接描画したり文字を書いたりすることができます。M2搭載のiPad Proでは、Apple Pencilによるポイント機能で、画面にまったく触れることなく、映像素材をすばやくスキミングしてプレビューできるようになります。また、Magic KeyboardやSmart Keyboard Folioを追加してキーコマンドを活用することで、ワークフローを高速化することもできます。クリエイターは、12.9インチiPad Proに搭載されたLiquid Retina XDRディスプレイを利用することで、美しいHDRビデオを表示して編集したり、リファレンスモードを使って正確にカラーグレーディングを行うことができます。

 

 

プロ向けのカメラモードとマルチカムビデオ編集

プロ向けのカメラモードにより、iPadでの制作プロセスをより一層コントロールできるようになります。映像クリエイターは縦向きまたは横向きで高品質のビデオを撮影したり、オーディオや使用可能な録画時間をモニタリングしたり、焦点、露出、ホワイトバランスなどの設定をマニュアルでコントロールできます。クリエイターは撮影、編集、公開を現場で1つのデバイスから行うことができ、M2搭載のiPad Proでは、ユーザーはProResで録画することもできます。マルチカムビデオ編集により、クリップが自動的に同期され、まとめて編集されるので、ユーザーは指先だけでマルチカムクリップのアングルを切り替えることもできます。

 

 

機械学習を活用したFast Cut機能

iPadのためのFinal Cut ProはAppleシリコンのパワーと機械学習を活用し、時間のかかる編集タスクを高速化します。シーン除去マスクにより、クリエイターはグリーンスクリーンを使わずにすばやくクリップの被写体の後ろにある背景を除去したり置き換えたりすることができます。自動クロップでは、映像を縦長、正方形、またはその他のアスペクト比に調整でき、「声を分離」では現場で録音したオーディオから背景ノイズを簡単に除去できます。

 

プロ向けのグラフィックス、エフェクト、オーディオ

映像クリエイターは、プロ向けのグラフィックス、エフェクト、オーディオの豊富なライブラリから選んで、自分のストーリーをより魅力的に伝えることができます。これには、美しいHDRの背景、カスタマイズできるアニメーション表示パターン、ビデオの長さに自動的に調整されるプロ向けのサウンドトラックなどが含まれます。

 

読み込みと書き出し

エディターは、サポートされているメディアをファイルまたは写真アプリケーションから読み込み、Final Cut Proプロジェクト内に直接保存できます。iPadのためのFinal Cut Proは、iOSのためのiMovieで作成したプロジェクトの読み込みにも対応しており、iPadユーザーはFinal Cut ProプロジェクトをMacに書き出すことができます。

 

 

iPadのためのLogic Pro

iPadのためのLogic Proは、Logic ProのパワーとiPadの持ち運びやすさを組み合わせてオールインワンのプロ向けの音楽制作アプリケーションを実現しています。Multi-Touchジェスチャーで、音楽クリエイターはソフトウェア音源を演奏し、コントロールを自然に操作できるほか、ピンチして拡大したりスワイプしてスクロールする動作で複雑なプロジェクトを操作できます。Plug-in Tilesによって、最も便利なコントロールをクリエイターの指先で操作できるため、簡単にすばやくサウンドを形作ることができます。ユーザーは、iPadに内蔵されているマイクを使って、音声や楽器の録音を取り込むことができ、iPad Proのスタジオ品質の5つのマイクを使うと、ほぼすべての空間を録音スタジオに変えることができます。また、クリエイターは正確な編集を行うことができ、Apple Pencilを使って詳細なトラックオートメーションを描いて、Smart Keyboard FolioまたはMagic Keyboardを接続することで音楽制作を加速するキーコマンドを活用できます。

 

まったく新しいサウンドブラウザ

まったく新しいサウンドブラウザは、ダイナミックフィルタリングにより音楽クリエイターがひらめいた時にいつでも完璧なサウンドを見つけるのに役立ちます。サウンドブラウザは、使用できる音源パッチ、オーディオパッチ、プラグインプリセット、サンプル、ループをすべて一か所に表示して、ユーザーはプロジェクトにロードする前にタップしてサウンドをチェックすることができるため、時間が節約され、制作フローが途切れることがありません。

 

プロ向けの音源とエフェクトプラグイン

クリエイターは、Logic Proの100を超えるパワフルな音源とエフェクトプラグインを使用して音楽の音質を形作ることができます。ビンテージEQ、コンプレッサー、リバーブなどのエフェクトによりユーザーはトラックを細かく調整できます。クリエイターは、様々な演奏のための画面上でMulti-Touchにより楽器を演奏することができます。iPadのLogic Proにはリアルな音を奏でる音源とパワフルなシンセの膨大なコレクションが用意され、これには指でタップするだけであらゆるオーディオサンプルを生まれ変わらせる新しいサンプル操作音源であるSample Alchemyが含まれています。

 

ビートの作成とプロダクションツール

プロデューサーは、ビートの作成とプロダクションのツールセットを使用してサンプルを細かく切ったり、並べ替えたり、ビートやベースラインを打ち込んだり、自分だけのドラムキットを作成することができます。タイミングとピッチのモーフィングのためのプラグインであるBeat Breakerを使うと、音楽クリエイターはスワイプやピンチで大胆にサウンドを一新したりシャッフルしたりできます。Quick Samplerでは、オーディオサンプルを細かく切ったり、変化させて、演奏できるまったく新しい音源に作り変えることができます。また、ステップシーケンサーを使えば、ユーザーはドラムパターン、ベースライン、メロディを打ち込んだり、ほんの数ステップでプラグインを自動化することもできます。Drum Machine Designerでは任意のドラムパッドにサンプルや独自のプラグインを適用して、カスタムドラムキットを作成できます。Live Loopsを使うと、ユーザーは音楽のループをミックス、マッチングして、インスピレーションを得ながらすばやくアレンジを組み立てられます。

 

プロ仕様のミキサー

チャンネルストリップ、ボリュームフェーダー、パンコントロール、プラグイン、センド、正確なオートメーションがそろった、フルスペックのミキサーは、iPadだけでプロのミキシングを作成するために必要なものすべてをユーザーに提供します。クリエイターは、Multi-Touchで直感的にミキシングをして、一度に複数のフェーダーを移動できるほか、ミキサーメーターブリッジによりトラックレベルの概要をすばやく確認することも、すべてiPadからできます。

 

読み込みと書き出し

iPadのためのLogic Proはラウンドトリップ互換をサポートしているため、MacのためのLogic ProとiPadのためのLogic Proの間でのプロジェクトの移動が簡単にできます。iPadユーザーは完成した曲を様々な圧縮されたロスレスのオーディオフォーマットや、個々のオーディオトラックのステムで書き出すことができます。音楽クリエイターはiPadのためのLogic Proでサウンドトラックを作成して、iPadのためのFinal Cut Proで読み込むことができるため、音楽と映像にまたがって取り組む際に優れた柔軟性を提供します。iPadのためのLogic Proは、iOSのためのGarageBandで作ったプロジェクトを開くこともできるため、ユーザーはプロ向けの機能とワークフローで音楽を次のレベルへ引き上げることができます。

 

価格と販売について

iPadのためのFinal Cut ProおよびiPadのためのLogic Proはそれぞれ5月24日(水)よりApp Storeで月額700円または年額7,000円で利用でき、1か月間の無料トライアルも用意しています。

Final Cut ProはM1チップ以降を搭載したiPadモデルと互換性があります。Logic ProはA12 Bionicチップ以降を搭載したiPadモデルで利用可能になります。iPadのためのFinal Cut ProおよびiPadのためのLogic ProはiPadOS 16.4が必要です。詳しくは、apple.com/jp/final-cut-pro-for-ipadとapple.com/jp/logic-pro-for-ipadをご覧ください。

参考資料

画像を SVG に変換する「Vectorizer.ai」ベータ版

JPEGやPNGを SVG ベクターデータに変換するサービス「Vectorizer.ai」のベータ版が公開されています。ベータ期間中は無料です。

https://vectorizer.ai/

 

フルカラーでピクセルをベクトルにトレース

  • JPEG および PNG ビットマップを SVG ベクターにすばやく簡単に変換
  • 全自動。AI の使用
  • ベータ期間中は無料

 

使い方

1. 選択

ベクター化したいビットマップ画像を選び、ページ上にドラッグ&ドロップします。
JPEGやPNGなどのビットマップ画像は、「ピクセル」と呼ばれる小さな正方形の格子で表現され、それぞれが独自の色を持っています。

2.プロセス

当社のサーバーは、強力なGPUとマルチコアCPUを使用して、画像を分析、処理し、ピクセルから幾何学的形状に変換します。
出来上がったベクター画像は、ぼやけることなくどんな解像度にも拡大縮小でき、印刷、カット、刺繍などに使用できます!

3.ダウンロード

結果のフルプレビューを閲覧し、気に入ったものがあればダウンロードすることができます。ベータ版の間は、ダウンロードは無料です。
現在、SVG、PDF、EPS、DXF、PNGをサポートしており、さらに多くのフォーマットをサポートしています。

 

フル機能

ディープベクトルエンジン

15年の経験をもとに、ディープラーニングネットワークと古典的アルゴリズムを構築し、Vectorizer.AIのコア機能を構成しています。本サービスを支えるAIネットワークは、当社が独自に開発したデータセットをもとに、ゼロから学習させています。

ベクターグラフ: 独自の計算幾何学フレームワークにより、従来のベクトル画像表現では不可能であった自動編集や局所的な最適化を実現。

フルシェイプフィッティング

単純なベジェ曲線だけでなく、複雑な幾何学的形状全体を可能な限りフィットさせ、完璧なフィットと比類ない一貫性を実現します。完全にパラメータ化された円、楕円、丸みを帯びた長方形、星形をサポートし、オプションで角丸や任意の回転角度を付けることができます。

曲線のサポート

ベクター形状は、幾何学的形状全体に加えて、直線、円弧、楕円弧、2次曲線や3次曲線のベジェ曲線から構築することができます。一般化された曲線をモデリングする場合、ほとんどのベクターグラフィックソフトウェアアプリは、3次ベジェ曲線のみを含むように物事を単純化しようとしますが、これは便利ですが限られた近似値です。Vectorizer.AIは、すべてのカーブタイプをサポートし、適切な場合に使用します。

きれいなコーナー

シェイプのアウトラインは、直線的な部分や滑らかに変化する部分で構成されていることが多いのですが、そのような部分にはコーナーがあり、互いに離れています。ベクターグラフでは、すべてのコーナーを分析、モデル化、最適化することで、他のベクターライザーよりも自然な仕上がりになっています。

高いパフォーマンスを発揮する

誰も待つのは好きではありません。私たちはあなたの時間を尊重し、ディープラーニングのために最先端のGPUをフル活用し、マルチコアCPUで慎重に調整された超並列の古典的アルゴリズムを実行して、業界で最高のベクターを早急に提供することを確認します。

サブピクセルの精度

1ピクセル以下の幅の特徴を抽出し、アンチエイリアスのピクセル値に応じて境界を配置します。細部にこだわる。

完全自動

ユーザーの入力を必要とせず、結果を出すことができます。

画像の種類

ロゴなどのラスタライズされたベクターアートのために設計されたアルゴリズムですが、スケッチなどの描かれたアートワークや写真のスキャンや写真にも非常によく機能するようになっています。

プリクロップ

ビットマップには最大限の解像度が設定されていますが、その解像度を最大限に活用するために、ベクター化したいビットマップの一部をクロップすることができます。切り取った部分だけが解像度の上限としてカウントされるため、最大限のクオリティで仕上げることができます。

フルカラー&トランスパランシー

最初から一流のコンセプトとして取り入れたアルファチャンネルを含む32ビットフルカラーをサポートしています。部分的に透明な領域やアンチエイリアスも完全にサポートされています。

 

よくある質問

Vectorizer.AIが他社より優れている点は何ですか?

ひとつだけ挙げるとすれば、AIでしょう。私たちは15年間この分野で仕事をしてきましたが、AIを加えることでゲームチェンジャーになりました。従来の方法では見逃してしまうようなディテールを引き出すことができ、ピクセルデータが曖昧な場合でも賢明な推測を行うことができるのです。この製品のディープラーニングモデルは完全に自社で開発し、独自に開発したデータセットで学習させています。

しかし、AIベクタライザーの出力をクリーンアップして改善するために、私たちがより良くすることは他にもたくさんあります。幾何学的な形状のフィット、コーナーのクリーンアップ、タンジェントマッチング、カーブフェアリングなど、さまざまな改良があります。私たちのベクターグラフは、競合他社の多くが弱点としている形状間の整合性を維持しながら、これらの変更を行うことを可能にします。

そして、私たちはまだ始まったばかりです。サイト全体が活発に開発されており、多くのエキサイティングな機能が準備されています。

JPGやPNGをベクターに変換するためのオンラインツールを探していると、ウェブ上で多くの選択肢を見つけることができます。そのほとんどは、何十年も前からあるような古いアルゴリズムに基づいており、率直に言ってあまりうまく機能しません。Vectorizer.AIは、ベクター化への新しいアプローチであり、その結果に感動していただけると確信しています。

 

ファイル形式は?

現在、入力としてJPEG、PNG、WEBP、BMP、GIFをサポートし、出力としてSVG、PDF、EPS、DXF、PNGを生成します。より多くの出力フォーマットとオプションが近日中に登場する予定です!

サポートしてほしいファイル形式があれば、ぜひ教えてください。

 

設定オプションは追加されるのでしょうか?

私たちは、完全自動の結果がほとんどの場合正しくなるように、AIを十分に賢くするために努力しています。しかし、好みの問題もありますので、そのような場合はオプションを追加する予定です。

出力される色の数をコントロールする方法を追加してほしいという要望が一番多かったので、近々追加する予定です。その他、必ず必要な機能を思いついたら、ぜひ教えてください。

 

解像度は?

画像の最大画素数は2メガピクセルです。最大画像ファイルサイズは30メガバイトです。

 

透明度は?

32ビットARGBのフル入力に対応していますので、完全透過、部分透過のどちらでも大丈夫です。

 

価格は?

ベータ版の間は無料でご利用いただけます。

 

ベータ版終了後の価格は?

まだわかりません。アルゴリズムとウェブサイトの構築に取り組んでおり、特に前者については、かなり先にならないとコストがわからず、価格を決めることができません。

 

ベータ版はいつ終了するのですか?

おそらく2023年の第3四半期か第4四半期になります。

 

課金開始のお知らせはどのようにするのですか?

課金開始のかなり前に、API登録時に使用したアドレスにメールを送信します。そのアドレスが最新であるよう、ご注意ください。

 

AIで生成された画像でも使えるのですか?

はい。実際、それらは人気のあるカテゴリーであるようで、私たちはそれらの画像で私たちのアルゴリズムがうまく機能するのを見て満足しています!

 

ベクトル化と埋め込みは違うのでしょうか?

はい、ビットマップをベクトル化することと、単にベクトルファイルに埋め込むことには大きな違いがあります。

ベクトル芸術にビットマップ画像を自動的に変換するプロセスは、vectorizing、vectoring、トレース、ベクトルにビットマップ、ラスターからベクトル、ベクトルに変換、およびおそらく多くの他のものを含む様々なものと呼ばれる。このプロセスはイメージの形を検出し、それにカーブを当てはめ、そしてベクトル ファイルとして結果を輸出することを含んでいます。最終結果はピクセル データを含まないし、質の損失なしであらゆるサイズに拡大することができます。

しかし、ベクトル ファイルはまたちょうどそれらの中のビットマップのコピーを含むことができ、ベクトル ファイルにビットマップを置くことは埋め込まれると呼ばれます。埋め込むだけのサービスもありますが、Vectorizer.AIは実際にベクター化を行っています。

 

ベクター画像は何に使えるの?

ベクター画像は幾何学的な図形で構成されており、品質の損失なしに任意のサイズに拡大縮小することができます。それらは印刷されたグラフィックに一般に使用され、高DPIスクリーンが標準になり、SVGイメージのブラウザサポートがどこにでもなった今、ますますWebグラフィックに。また、レーザー彫刻、ビニールカット、スクリーン印刷などの印刷工程でも必要とされる。

また、ベクターグラフィックは、ベクターエディターで簡単に編集・変更できるため便利です。一方、ビットマップ画像は、画像に存在するグラフィックがピクセルの1つまたは複数のレイヤーを平坦化されているため、編集が困難で時間がかかるものである。ピクセルの編集は面倒で、間違えやすく、小さな欠陥やアーティファクトが残ることも少なくありません。

 

入力画像やベクトル化された結果について、何か主張することはありますか?

当社の利用規約は、お客様にサービスを提供し、当社の製品を改善するために必要な権利を付与しているだけです。また、お客様が明示的に許可した場合を除き、お客様の画像を第三者と共有することはありません。

詳細については、当社の利用規約をご覧ください。

 

データ保持のポリシーは?

現在、画像と結果はアップロード後5日間保持され、その後永久に削除されます。当社のデータ保持ポリシーは時間の経過とともに変更される可能性があり、この現在のポリシーが将来的に当社を拘束したり、変更に際してお客様の肯定的な同意を必要とするものではないことにご留意ください。

参考資料

ShutterstockがNVIDIAと組んでジェネレーティブ3DのためのAIモデルを構築

ShutterstockがNVIDIAと組んでジェネレーティブ3DのためのAIモデルを構築が発表されました。テキストから3Dモデルを作成するサービスです。

Shutterstockの素材で学習したモデルを使用して、最初の段階では1つのオブジェクトに1つのメッシュを作成し、シンプルなカラーテクスチャのみを作成する予定とのこと。将来的には、部品の分割、サブディビジョンや、高度なテクスチャリングオプションを含むように拡張される予定らしい。

https://www.fxguide.com/quicktakes/gtc-shutterstock-teams-with-nvidia-to-build-ai-models-for-generative-3d/
https://investor.shutterstock.com/news-releases/news-release-details/shutterstock-teams-nvidia-build-ai-foundation-models-generative

 

GTCでは機械学習に基づく興味深い発表が数多くありました。例えば、クリエイティブ・プラットフォームとストック・ライブラリのリーディングカンパニーであるShutterstockとNVIDIAは本日、シンプルなテキストプロンプトから生成的3Dツールでカスタム3Dモデルを作成する機械学習プラットフォームをトレーニングするために提携すると発表しました。
3Dモデルは、NVIDIA Picasso生成AIクラウドサービスを使ってShutterstockの資産でトレーニングされ、テキストを高忠実度の新しい3Dコンテンツに変換し、作成時間を数時間から数分に短縮します。

 

新しいText-to-3Dモデルは、Shutterstock.comのCreative Flowツールキットの一部として、今後数ヶ月で導入される予定です。また、Turbosquid.comでもText-to-3D機能を提供し、NVIDIA Omniverseプラットフォームでは、3D産業メタバースアプリケーションの構築と運用に使用するために導入される予定です。

高品質で詳細な3Dモデルをゼロから構築することは、しばしば困難で時間のかかる作業となります。これは、VFXにおいても、デジタルツインシミュレーションでの使用などの産業用途においても同様です。3Dはしばしば精度を必要とし、その作業の複雑さゆえに、モデルの仕様によっては何日も、あるいはそれ以上かかることもあります。

NVIDIA Picasso ジェネレーティブAIサービスでカスタムモデルを作成することで、Shutterstockは3Dアーティストが数分でアイデアを出し、新しい形を模索することを支援します。
NVIDIA Picassoは、ジェネレーティブAIベースの画像、動画、3Dアプリケーションを構築、展開するためのクラウドサービスです。NVIDIA DGXスーパーコンピューティングクラウドを介して、生成AIビジュアルのための最高のトレーニングおよび推論性能を提供するように最適化されています。

アーティスト、TD、アニメーターは、オブジェクトの形状の作成、オブジェクトのアンラッピングの支援、ハイエンドでのテクスチャやマテリアルの生成、そして3D非力なユーザーにとっては、新しい3Dモデルを様々なアプリケーションやプラットフォームで簡単に使用できるようになります。

 

 

当初は、1つのオブジェクトに1つのメッシュを作成し、シンプルなUVカラーテクスチャのみを作成する予定です。将来的には、モデルを論理的な部品に分割する複雑なサブディビジョンや、より高度なテクスチャリングオプションを含むように拡張される予定です。

ShutterstockのTurbosquidは、貴重なデジタルバックロット資産ですが、明らかに現在のライブラリは、一般的に使用される3Dオブジェクトの作成に有利です。新しいテキストから3Dへの変換は、複雑なオーダーメイドの新しいモデルを作ることを可能にします。
このような珍しいモデルや専門的なモデルを作るには、費用と時間がかかるでしょう。現代のアジャイルなプロジェクトアプローチでは、ベースとなるモデルを作成し、それをさらに洗練された詳細なテクスチャ資産に改良する前に、クライアントに対して素早くデザインを反復することが可能になります。

NVIDIAのデベロッパープログラム担当副社長であるグレッグ・エステスは、「ジェネレーティブAIの変革能力により、ソフトウェアメーカーや企業は、デジタルツイン、シミュレーション、デザイン用の3D資産を作成するために簡単なテキストプロンプトを使用するツールを構築し、アーティストが膨大な時間と労力を節約することが可能になります」と述べています。
「ShutterstockのカスタムモデルをNVIDIA Picasso生成AIクラウドサービスでトレーニングすることで、開発者はアーティストにとって面倒な作業の多くを自動化できるツールを手に入れ、新しいコンセプトの探求やアイデアの洗練に多くの時間を割くことができるようになります」

アーティストに対して倫理的かつ公平であるために、Text-to-3Dへの統合プランは、アーティストから作品を「盗む」ことなく、また通常のTurbosquidマーケットプレイスを通じてジェネレーティブに作られた資産を販売することもできないように構築されています。また、両社は、フリーランスの3Dアーティストを支援し、彼らを公平に扱えるようにすることを強く望んでいます。

Shutterstockは、責任あるAIへの取り組みの一環として、また、Shutterstockのプラットフォームでカスタマイズされた3Dモデルの販売に関連して、ジェネレーティブ技術のトレーニングにおいて彼らのIPが果たす役割に対して、コントリビューターファンドを通じてアーティストに補償を行う予定です。

参考資料

CGキャラを自動的にアニメ、ライティング、合成する AI ツール「Wonder Studio」

CGキャラクターを自動的にアニメーション、ライティング、合成する AI ツール「Wonder Studio」の情報が公開されています。投資家向けな感じがするサイトですね。

https://wonderdynamics.com/

 

ワンダースタジオ

実写のシーンにCGキャラクターを自動でアニメーションさせ、照明や合成を行うAIツール

 

ブラウザで見るVFXスタジオへようこそ

 

デコレーション

MoCapも、複雑な3Dソフトウェアも、高価なプロダクションハードウェアも不要で、アーティストに必要なのはカメラだけです。

 

ショット単位で作業する必要がない

ショット全体またはシーン全体をアップロードすると、システムは自動的にカットを検出し、シーケンス全体を通して俳優を追跡します。

 

フレーム単位の重厚なVFX作業は不要

シングルカメラで撮影された映像をもとに、俳優の演技を自動検出します。そして、その演技を、自動でアニメーション、照明、合成されたお好みのCGキャラクターに移植します。

体モーキャップ
ライティングとコンポジット
ReID
手モーキャップ
アドバンスド・リターゲティング

 

既存のパイプラインへの適応

Wonder Studio AIは、「客観的」なVFX作業の80%~90%を自動化し、アーティストには残りの「主観的」な作業を残し、すでに使用しているソフトウェアにエクスポートすることができます。

個々の要素をエクスポートする

モーションキャプチャー
キャラクターパス
アルファマスク
クリーンプレート
カメラ軌道
Blenderファイル
最終レンダリング

 

宇宙人でもできるほど簡単

複雑な3Dソフトウェアや時間のかかる学習曲線に別れを告げましょう。

 

複数のキャラクター

複数のキャラクターを割り当ててSF世界を作る。

 

ハードな VFX ショットを過去のものに

ダイナミックカメラ
ダイナミックライティング

 

独自のスタイルを与える

独自の定型化されたキャラクターを実写ショットでシームレスに構成する

 

アーティストコミュニティからの無料キャラクター

Wonder Studioで無料で使える、アーティストが制作したキャラクターの一部をご紹介します。

 

 

 

 

 

 

Wonder Studioを今すぐ入手する

3Dアーティストの方で、ご自身のキャラクターを当社のプラットフォームで紹介したい方は、お問い合わせください。

参考資料

背景に画像生成AIを使用した短編アニメ 「犬と少年」

全カットの背景にAI生成画像を使用した短編アニメ 「犬と少年」のインタビュー記事が公開されています。

背景にAIを使用していることを知ってて見たせいか、ぱっと見いい感じだけど背景の描き込みに目が引っぱられたりレイアウトが弱いと感じました。でもインタビュー見ると手描きのレイアウトそのままな背景で、手描きで修正してるみたいですね。

https://www.businessinsider.jp/post-265291

  • 人が足りていないので新しい制作方法を模索しなくてはいけない。技術的なテストとして短編のアニメ作品をつくることになった。
  • プロジェクトのためだけに「オリジナルのAI」を開発した。
  • 開発はマイクロソフトからスピンアウトしたAI企業rinna社。
  • OpenAIが公開したDALL-Eなどと同じTransformerベースの画像生成AI。
  • ネットで収集された権利関係が明確でない学習ソースを使うのはリスクがあるため、Production I.Gが手がけた「ネットフリックス・オリジナル作品」の背景美術をAI学習に使用。
  • AI絵をそのまま採用しているものはほとんどない。9割手間が削減できたところもあれば、1割しか使えなかったところもある。
  • AIで40~50%省力化できた。浮いた50%時間を使って手のかかるところの質を上げることに使えた。

 

参考資料

AI生成したフリーフォント「異形明朝」

AI生成したフリーフォント「異形明朝」が公開されています。SIL Open Font License 1.1ライセンスで商用利用可能とのことです。

https://github.com/Mikanixonable/IgyouMincho

異形明朝は、源ノ明朝Boldをもとに、Diffusion画像生成モデルACertainThingに明朝体の漢字と平仮名、片仮名をファインチューニングして生成したフォントです。ノイズから生成したIgyouMinchoとimg2imgで元の字形を留めたIgyouMincho2があります。
ライセンスはSIL Open Font License 1.1であり、商用に使用できるほか、SIL Open Font License 1.1ライセンスを維持すれば改変、再配布も自由です。

デモページ:https://mikanixonable.github.io/57

 

参考資料

アバター 2 の新しいフェイシャル パイプライン

アバター 2 で使用された新しいフェイシャル パイプラインの記事が公開されています。

https://www.fxguide.com/fxfeatured/exclusive-joe-letteri-discusses-weta-fxs-new-facial-pipeline-on-avatar-2/

 

Wētā FXは、まったく新しいフェイス・パイプラインを開発しました。この画期的な新アプローチを最初に開発したのは2019年だが、同社は『Avatar: The Way of Water』の公開に合わせて、韓国で開催されたSIGGRAPH ASIAで新しいアプローチを公開したばかりです。この徹底討論ではWētā FX Snr.に直接話を聞いている。VFXスーパーバイザーのJoe Letteri氏と、テクニカルペーパーの他の著者の一人であるKaran Singh氏に、新しいアプローチを開発する決断をした理由について、直接話を聞きました。

 

背景

フェイシャルアニメーションの新しいシステムは、FACSパペットから解剖学的ベースとしての筋繊維曲線に移行することに基づいています。この新しいアプローチは、Anatomically Plausible Facial SystemまたはAPFSと呼ばれ、アニメーター中心で、解剖学的な発想から生まれた、顔のモデリング、アニメーション、再ターゲッティング転送のためのシステムです。

 

新システムは、Wētā FXが『ゴラム』以来一貫して使用してきた、受賞歴のあるFACSパイプラインに代わるものです。映画『アリータ:バトル・エンジェル』(2019年)のためにR&D FACSアプローチを極めて強く押し出したLetteri氏は、FACSベースのパペットシステムには、顔の筋肉の分離、カバー、線形組み合わせ使用、広域冗長性などの大きな問題が多すぎるだけだと判断しました。

例えばFACSは筋肉主導の表情を表す顔のポーズのセットをマッピングしますが、適切なフェイシャルアニメーションを得るために、FACSパペットリグは、アニメーターが信じられるパフォーマンスを達成できるように、900ものFACS形状をリグに追加することになってしまうかもしれません。FACSが「間違っている」のではなく、タイムベースのフェイシャルアニメーションのために設計されたシステムではないのです。FACSは音声を中心に構築されたものではなく、むしろ孤立した感情表現を中心に構築されたものです。

「私たちは、アーティストが顔の動きを直接コントロールできるシステムが必要だったのです」とLetteri氏は語る。「FACSはあくまで感情ベースのシステムであり、表情をコード化するものです。FACSには対話はありませんし、私たちがやっていることはほとんど対話です。FACSは正確な孤立した表情を表すかもしれませんが、ポーズ間の移行方法に関する情報はありません。結局、一種の推測をしなければなりません。移行を直感するようなもので、それは素晴らしいことですが、維持するのは困難です」とLetteri氏は説明しています。FACSシステムは、状態から状態へ移行するときに、基本的に顔全体に直線的に状態変化が起こるので、非常に "rubbery "なのです。

 

 

Letteri氏と彼のチームは、フェイスパイプライン全体をゼロからやり直すことにしました。「私はこの問題を見て、こう思いました。これはもうやりたくない。これは難しすぎる。もっといい方法があるはずだと。顔の筋肉がどのように配置され、どのようにつながっているのか、もう一度見直してみました。そして、その結合をマップ化すれば、顔を表現する高次元空間の基礎ができることに気づいたのです」。

チームは、表情が作られ、筋肉が活性化すると、他の筋肉が連動して活性化したり、筋肉が受動的に引っ張られたりすることに着目しました。"筋肉が神経ネットワークによく似た一種のネットワークで相互接続しているため "と、Letteri氏は推論しています。
「そこで私は、筋肉を直接ベースとする神経回路網を作ればいいのではないかと考えたのです。つまり、多くのディープラーニングは、問題に数字を投げかけて、たくさんのデータを与えれば、相関関係を割り出してくれようとするものなのです。でも、私たちはすでに相関関係を知っているのだから、それを基礎としてコード化すればいいのでは?数学の世界に入り込めば、それは大きな微分積分の連鎖になります。基本的な微積分です」。

そしてチームは、アニメーターが顎、目、筋肉のどのような組み合わせでも表現できるようなシステムを構築することを目指しました。「ベースとして、例えばシガニー・ウィーバーの顔を見て、"筋肉 "が何をしているかを解くようにシステムを訓練し、それを別のネットワークでキャラクターに転送できるのは素晴らしいことです」。
さらに、筋肉カーブにより、アニメーターは顔の筋肉ごとに直接コントロールできるようになりました。ただし、筋肉曲線は、皮膚の下にある実際の筋肉と1対1で一致するように設計されているわけではないことを指摘する必要があります。筋肉曲線は、アニメーターがコントロールできる方法で、かつ、非常に高い忠実度でキャプチャされたパフォーマンスである顔の動きと一致するように、顔を解決するように設計されています。

 

APFS

新しいAPFSは、178本の筋繊維の曲線、つまり「歪み」の曲線に基づいています。これらの筋繊維曲線が収縮・弛緩することで、きめ細かく忠実な人間の顔の表情が得られます。エンドツーエンドのシステムは、インワードアウト(顔が筋繊維曲線によって駆動される)とアウトサイドイン(アニメーターが顔の表面から顔を「正しく」ドラッグして動かすことができる)の両方が可能です。

このシステムは、人間の筋肉を1対1でマッピングしているわけではありません。上唇の湾曲など、顔のいくつかの側面は、実際には顎や下顔面の筋肉によって駆動されている結果だからです。むしろ、このシステムは178の曲線からなる配列であり、解剖学的なインスピレーションに基づく一連の制御を可能にしますが、肉/筋肉の直接的なエミュレーションやシミュレーションではありません。

さらに、FACSの人形はFACSの表情の直線的な組み合わせで作られており、回転は含まれていません。眼球を中心とした回転成分を自然に含む正しいまぶたのアニメーションを得るには、一連の中間的なFACS形状を追加する必要があります。

 

まぶたの例

各筋肉または歪み曲線には、関連する歪み値があります。筋肉のカーブは実際にはねじれませんが、ひずみ値はカーブに沿って、その局所空間における収縮または拡張を提供します。ある意味これは長さの変化率です。実際の曲線のひずみ数値は単位がなく、これは異なる文字に転送する際に役立ちます。ひずみ値は単独で機能するというより、セットの一部として機能します。

例えば、まぶたの瞬きには、まつ毛のラインに沿った筋カーブ(水平方向)と、直交方向(目の周りの上下方向)の両方が存在する。この場合、水平方向の曲線は眼球の上を回転しているため、実際のひずみ値はあまり変化しませんが、垂直方向の曲線はひずみ値が劇的に変化しています。
しかし、最も重要なのは、垂直カーブが筋肉のカーブ形状に沿ってスケールすることで、これは眼球のカーブと一致します。開いているブレンドシェイプと閉じているブレンドシェイプの間の同様の遷移は、(眼球の周りで曲がることなく)閉じてから開くまで直線的に移動するだけです。
Mayaでは、ブレンドシェイプをチェーンして、眼球の周りでカーブするまぶたをシミュレートすることができますが、これもブレンドシェイプの数を増やしてしまうことになります。

FACSソリューションは、フェイシャルリグの標準化を可能にしましたが、FACSは顔の表情の自発的で区別できるスナップショットをキャプチャするために心理学の観点から設計されており、コンピュータアニメーションに適用すると明らかに限界があります。
FACSのアクションユニット(AU)は、複数の表情筋の動作を組み合わせるAUや表情筋が全く関与しないAUのように、望ましい表情を得るために引き算で組み合わせる必要がある)、定位とアニメーション制御(冗長、動作が反対、強く関連、または相互に排他的なAUがあり得る)、AUはヒンジでつながれた顎と人間の唇の複雑な形状変形にしか近似しないなどです。

新システムの構築には、機械学習が用いられました。80の動的モーションクリップから6000〜8000のスキャン(フレーム)を使用しました。約60%がFACSの形状ポーズ、40%がスピーチモーションです。各俳優の演技は、検証されたグランドトゥルース表現から340のマーカーを基に解かれました。APFSパイプラインは時間情報をエンコードせず、これはパフォーマンスキャプチャの解答そのものから得られるものである。アニメーションは俳優の動きと表情を本質的に追跡します。

 

あご

新しいシステムでは顎と唇が特に注目されています。「システムを構築しているときに気づいたことのひとつに、顔の状態をコントロールする主要な手段が顎であるということがあります」とLetteri氏は語ります。

「特に対話の場合、顎は常に動いています。 さらに、人の顎は盾の軌跡の形でしか動かないので、顎が状態を動かす主役です」とLetteri氏は説明します。下顎骨は顎関節を介して頭蓋骨に固定され、靭帯と筋肉で支えられている。そのため、顎の可動域は、顎の想定される点の集合をトレースすることでマッピングすることができます。このような点の集合を人物のあらゆる台詞や表情に対応させると、盾のような形状になります。これを「ポッセルトの運動包絡線」または「ポッセルトシールド」と呼びます。

「このシールドは、ドライバー自身の制約システムに組み込まれています。"筋肉はその上で解かれます" というのも、チームがどの俳優を解析するときでも、デジタル頭蓋骨を俳優に適合させるフォレンジックフィットを行うからです。次に、顎の可動域を把握し、HMCのステレオカメラを使って深度情報を抽出します。そして、PCAを実行して、コヒーレントなメッシュが得られるように、最適なフィッティングを試みます。そして、そのメッシュに顎と頭蓋骨をフィットさせるのです」。
パフォーマンス・キャプチャーの場合、人間の動作にはすでに動きや可動域が含まれています。しかし、手作業でアニメーションを作成する場合は、Jawコントローラにシールドの制約が組み込まれます。アニメーションの検証は、その俳優の各カメラから取り込んだ画像に対して、歯並びを観察することで行いました。

同様に、俳優の目も非常に慎重に扱われています。システムの目のモデルは、アクターの強膜、角膜、虹彩にマッチしています。虹彩モデルが、各カメラから取り込まれた画像に見える辺縁リングと瞳孔に一致するように、眼球を回転させることによって、各フレームで視線方向を調整するのです。眼球はレンズ効果や屈折を示すため、追跡するのが非常に難しいのです。複数のカメラアングルを使用して、アライメントを確認し、角膜によって屈折する光を考慮します。 正面からの小さな目の膨らみも、それぞれの目の回転に適用して、キャラクターの目のリアリズムを高めています。

 

四面体(テト)フェイシャルボリューム

曲線筋は単なる線であるため、歪んだ筋肉とデジタルキャラクターの皮膚との間にリンクが必要です。曲線は筋肉の動作の線を捉えているのですが、実際の顔の中にも埋め込まれているのです。
ここでは、キャラクタの静止ポーズにおける顔の軟組織を離散化した四面体ボリュームを使用したボリューム表現によって、顔をシミュレートしています。テトのボリュームソリューションは、皮膚と、頭蓋骨と顎の骨の間に位置します。テトは概念的または数学的な「ゼリー」を形成しています。このテトボリュームに対して、皮膚の頂点と頭蓋骨を位置拘束として、スキャンシーケンス全体に対してパッシブな準静的シミュレーションを実行します。有限要素解析(FEA)を用いて,135,000 個のテト(複数の位置拘束,スライド拘束,衝突拘束を持つ)の「パッシブシミュレーション」をフレーム単位で行い,解剖学的にもっともらしい肉の挙動を生成しています。ここで生成される「肉付けマスク」は、学習段階での役割しか持ちません。

 

実際のマッスルリボンとマッスルカーブの比較

顔の筋肉はリボン状の筋肉であることが多いのですが、APFSのカーブには幅がありません。そのため、必要な部分にカーブを追加しています。筋肉カーブはアクティブマッスルシムではありません。「実際、アニメーターはそれを望んでいません。彼らはフレーム間の制御を望んでいます。彼らは運動学的な変形制御を望んでいるのです。シミュレーションの設定をした後、再生を押して、実際のアクティブなシミュレーションが引き継がれるのを見たくはないのです」そのため、チームは曲線表現を選択し、「曲線にこだわることにしたのです」と彼は付け加えます。「私たちは、できる限り最小限の、絶対的なパラメトリック表現を採用したのです」。

Karan Singh氏はCOVIDの直前、2020年にVictoria Universityに客員研究員として滞在していたため、チームに参加しました。彼は、自分が主席研究員ではないことを最初に言いますが、SIGGRAPH ASIA Submissionにプロセスを書き上げる上で大きな役割を果たし、ライブプレゼンテーションを行ったByungkuk Choi Haekwang EomとBenjamin Mouscadetと共に韓国でプレゼンテーションに参加したのです。
各エンジニアは、大規模なエンドツーエンドのソリューションの一部として、特定の焦点とモジュールを持っていました。この論文には、Joe LetteriとKaran Singhを含む12人の著者がいます。

Singh氏は、以前AutodeskのMayaでオリジナルのブレンドシェイプコードを書いた経験があり、FACSパペットで使用される詳細なコードに精通しています。Singh氏は新しいパイプラインの内部で機械学習(ML)オートエンコーダ(AE)を巧みに利用し、表現をオンモデルに保っていることを指摘します。
MLはWētāのようなパイプラインを変革しているが、多くの人がまだ十分に理解していない方法です。 VAEとそのディープフェイク・フェイススワップツールとしての使用については多く書かれていますが、APFSチームはここで、AEなどのMLツールが、最終的なピクセルに明示的に使用されない一方で、重要なタスクを支援するために複雑なパイプラインの内部で使用されていることを紹介しています。

このシステムは従来のFACSブレンドシェイプを使用して簡単にモデルから外れることができますが、ソリューション空間はAEによって制限されています。「初期テストや個々のキャラクターのトレーニングデータを定義するとき、そのキャラクターの範囲を設定しているのです」とSingh氏は説明します。「オートエンコーダーはそれを一種のエンコードとして扱うので、エンコードするのは一般的な設定だけではありません。つまり、一般的な設定をエンコードしているのではなく、非常に特殊なパフォーマンスをエンコードしているのです」。パイプラインの構築方法におけるAEは、ターゲットとモデル通りの顔を維持します。

 

ポーズライブラリの転送

アニメーターは当然ながらポーズライブラリを持つことに慣れています。しかし、ポーズは動きを強制したり、符号化したりするものではないので、組み合わせによって簡単にモデルから外れてしまうことがあります。そこで、アニメーターが使いやすいように、ひずみベースのモーションライブラリが作られました。

このアウトサイドインのアプローチは、カーブへのインバースマッピングを提供します。しかし、システムの構築方法とオートエンコーダの使用により、アニメーターが誤ってモデルから外れることはありません。筋肉の伸縮は直感的に理解できても、歪みベクトルで顔の表情を動かすのは一筋縄ではいきません。そこで、AE(オートエンコーダ)を導入し、ひずみベクトルが顔アニメーションの妥当な範囲に収まるように制約をかけることで、アーティストを支援します。

このモデル上の解空間を表情多様体と呼びます。ここで何が妥当かを定義するのはアニメーターであり,アニメーターは意図的にモデルから外れることを選択できますが,表情多様体は,複数の表情とそれに対応するひずみベクトルまたは設定の範囲から厳選されたサンプリングを用いて,アニメーターのために推定されます。

ディープシェイプ

アバター:ザ・ウェイ・オブ・ウォーターでは、多くの俳優が水中でパフォーマンスをキャプチャしていましたが、顔のアニメーションのほとんどは、乾いた土地での二次キャプチャに基づいており、それをメインのパフォーマンスキャプチャにブレンドしていました。顔のパフォーマンスキャプチャを行う際、アクターはステレオヘッドリグ(HMC)を装着しましたが、新しい技術のおかげで、アバター1のオリジナルHMCよりも重くありませんでした。

HMCカメラの固定ステレオ配置のおかげで、WētāのチームはDeep Shapeという強力な新しいビジュアライゼーションツールを開発しました。このステレオ画像を使って、俳優の実際の演技を3D点群風に再現し、どの角度からも見ることができるようにしました。画像はモノクロでポリゴン化されていませんが、実際の演技を高度に再現しています。
この新しいビジュアライゼーションにより、アニメーターは、実際のキャプチャーカメラの生の出力のような広角の歪みや奇妙な視野角なしに、顔からわずか数フィートの距離で撮影されたかのように、仮想の目撃者カメラを持つことができるようになるのです。

このような3D深度再構築ビューにより、唇や顎の伸展を観察し、後で完全に制御可能で再構築されたアニメーションが生ビューに忠実であるかどうかを判断する、より強力な方法を提供します。このように著しく便利な表示装置であるため、これまで誰も実装していなかったことが不思議なくらいですが、私たちの知る限り、Wētā FXはDeep Shape可視化オプションを正確に実現した最初のチームです。このツールは、APFSエミュレーションを比較・判断するための顔のグランドトゥルースの重要な参考ツールになります。 これは、新しいエンド・トゥ・エンドのAPFSベースのソリューションのもう一つの革新です。

 

エイジング

現在では一般的な手法として、俳優の顔の表情に合わせたデジタルダブルを非常に忠実にアニメーション化し、そのアニメーションをキャラクターモデルに転送しています。Wētāは、アニメーション転送時に俳優とキャラクターの顔の一致を最大化するために、対応する俳優の基本的な筋肉の挙動を共有するように、戦略的にキャラクターのトレーニングプロセスを設計しています。

3Dキャラクターの顔モデルは、最終的にそれぞれの俳優と同じ、共有された歪みオートエンコーダーを持つことになります。皮膚は正確にマッピングされ、目と顎の領域はユーザー定義のウェイトマップを使って別々に処理され、顔の重要なパーツをより正確に表現できるようになります。当然ながらナヴィのユニークな形状を考慮し、チームはアクターの顎のリグをキャラクターに慎重に適合させ、歯のトポグラフィーと頭蓋骨の解剖学の偏差を補償するためにそれを使用する必要があります。

 

カーブマッスルシステムは、首の部分までカーブが伸びており、ボディパフォーマンスキャプチャとの統合をより良くしています。耳については、まったく別のコントロールが用意されています。

「今回、わざわざキャプチャーしようとしなかったのは、耳は一種の二次的効果だからです」とLetteri氏は言います。「ナヴィの耳は表情豊かですが、人間には全くありません。ですから、あれはあくまで別のアニメーション制御システムなのです」

 

この映画では、当然ナヴィへの再ターゲットが多数ありますが、重要なのは、2つの重要な脱老化の再ターゲットがあることです。俳優のシガニー・ウィーバーとスティーブン・ラングは、ともに若いキャラクターに再ターゲットされています。キリと若いクオリッチです。

顔の筋肉の緩みや老化をシミュレートするために歪みの値を変えることを検討する人もいるかもしれませんが、Letteri氏は、リターゲティングがそれを完全に補うので、歪みの値を「緩和」したり伸ばしたりする必要がなかったと指摘しています。 「そうすることも考えましたが、それでは不確実性が増してしまいます」とLetteri氏。「そこで、まずはリターゲティングで試してみようと考えました。そして、それを実行したのです。そして、うまくいくようになりました。

参考資料

ZibraAI が Zibra VDB 圧縮を発表

ゲーム ツールを発しているZibraAIが、 OpenVDB形式のボリューム データを「最大 20 倍」圧縮する AI ベースのテクノロジ「 Zibra VDB Compression」を発表しました。GPUによる圧縮によって映画品質のVFXをゲームで使用できるようになるとのことです。

ZibraAI はUnityやUnreal Engineプラグインを介して来年利用可能になるようです。またHoudiniのプラグインもリリース予定とのこと。

https://zibra.ai/blog/zibra-vdb-compression-a-new-solution-bringing-openvdb-format-to-game-development/

 

Zibra VDB Compression - 画期的なOpenVDB形式をゲーム開発に導入する新しいソリューション

ボリュームデータは、コンピュータグラフィックスやVFX制作において、数多くの重要な用途を持っています。ボリュームレンダリング、流体シミュレーション、フラクチャシミュレーション、陰解面を使ったモデリングなどに使用されています。しかし、このデータの扱いはそれほど簡単ではありません。多くの場合、ボリュームデータは空間的に均一な規則正しい3次元グリッドで表現されます。しかし、高密度の規則正しいグリッドは、いくつかの理由で便利ですが、1つの大きな欠点があります。それは、グリッドの解像度に対して、メモリフットプリントが3乗的に増加することです。

DreamWorksAnimation社が開発したOpenVDBフォーマットは、ボクセルデータをツリー状のデータ構造に格納し、まばらなボリュームを作成することでこの問題を部分的に解決しています。このシステムの優れた点は、空のセルを完全に無視することで、メモリとディスクの使用量を劇的に減らし、同時にボリュームのレンダリングをより高速化することです。

2012年に発表されたOpenVDBは、現在ではHoudini、EmberGen、Blenderなどのシミュレーションツールで一般的に使用されており、長編映画の制作ではリアルなボリューム画像を作成するために使用されています。しかし、このフォーマットはGPUに対応しておらず、3Dボリュームのレンダリングにはかなりのファイルサイズ(平均数ギガバイト以上)と計算量が必要なため、ゲームに適用することはできません。

ゲーム開発で高品質なVFXを実現するためには、通常、別のアプローチが適用されます。アーティストは、Houdini、Blender、または他のツールでボリューム効果をシミュレートし、それを3D効果の外観を模倣するフリップブック、シンプルな2Dテクスチャにエクスポートします。

これらのテクスチャの重さは約16Mb~30Mbで、ゲームエンジンでリアルタイムにレンダリングすることが可能です。しかし、リアルさや視覚的なクオリティに欠けるいくつかの特徴があります。

まず、フリップブックは1つのカメラビューからベイクされるため、ゲーム内で何度も再利用したり、移動する視点からリアルに見える効果を長時間持続させることは困難です。第二に、これらのテクスチャはゲームにベイクされているため、ゲーム環境と非連動であることです。

そのため、高品質なVDBエフェクトのような臨場感を得ることは難しい。

この問題を解決するために、いくつかの試みがなされてきました。そのうちの1つ、NanoVDBはOpenVDBライブラリのNVIDIAバージョンです。

このソリューションはOpenVDBに対して1つの大きな利点、すなわちGPUサポートを提供します。フィルタリング、ボリュームレンダリング、コリジョンディテクション、レイトレーシングなどの処理を高速化し、複雑な特殊効果の生成と読み込みを、すべてリアルタイムで行うことができます。

とはいえ、NanoVDB構造はボリュームサイズを大幅に圧縮するものではありません。そのため、ゲーム開発ではあまり一般的に適用されていません。

強力なコンシューマ GPU がゲーム開発者の既存の制限を取り払った今日、ゲーマーはよりリアルで魅力的なゲームを期待しています。

Zibra VDB Compressionは、ZibraAIの最新ソリューションであり、GPUによる圧縮VDB効果で映画品質のVFXをゲームに導入するために開発されています。

AIベースのカスタム技術から生まれたこのソリューションは、以下のことを可能にします。

  • 異なるツールで作成され、OpenVDBフォーマットで保存された巨大なVFXを最大20倍まで圧縮し、より高品質のボリューメトリックVFXをゲームに追加し、リアルなビジュアルで埋め尽くすことができます。
  • ゲームエンジンでボリューメトリック・エフェクトをリアルタイムにレンダリング。
  • 複数のユースケースでボリューメトリック・エフェクトを再利用し、メモリ消費を最適化。
  • シェーダーを使って、プロジェクトのさまざまな部分でエフェクトの見え方を変更し、色、密度、再生速度を調整することが可能です。
    また、VDB圧縮ソリューションは、リアルなシーン照明の新しい可能性を開きます。VFXの光データを使ってシーンを照らし、反射を加えるなど、よりリアルで没入感のあるゲーム制作が可能になります。

Zibra VDB Compressionは、レンダリングに必要なチャンネル、特に密度、熱、温度を扱うことを目的としています。これは非可逆圧縮で、視覚効果の品質とサイズの間に常にトレードオフが存在することを意味します。

しかし、私たちの技術は、最高の圧縮率を提供し、圧縮と解凍されたVFXの目に見える違いを最小限にすることを保証するために取り組んでいます。現在、どのように動作しているかは、こちらをご覧ください。

この例ではJangaFXソフトウェアで作成された同じビジュアルエフェクトのオリジナルと圧縮バージョンを見ることができ、空中爆発が描かれていることがわかります。4.84倍に圧縮されたこの映像は、ピーク時のS/N比が40.2になっています。VFXの1フレームを解凍するのにかかる時間 - わずか316ミリ秒です。

当社のソリューションは、Unity、Unreal Engine、または任意のカスタムゲームエンジンに統合することができます。Zibra VDB Compressionを使えば、どんなに重いビジュアルエフェクトも、品質やパフォーマンスを大幅に犠牲にすることなく、プロジェクトで使用できるように圧縮し、ゲームを全く新しいレベルに引き上げることができます。

やるべきことはただ一つ。

  • Houdini、EmberGen、またはその他のソリューションでVFXをシミュレートします
  • ボリューメトリック効果をOpenVDBフォーマットで書き出す
  • ZibraAIプラグインを適用し、ゲームエンジン内で直接視覚効果の圧縮を実現します
  • VFXをシーンに配置し、シェーダーでその外観を磨く
  • ZibraAIプラグインを使用し、プロジェクト内でボリュームエフェクトのリアルタイム解凍とレンダリングを行います

Zibra VDB Compressionは、現在改良中です。圧縮率と品質の比率を改善し、業界の要件に完全に対応できるようにアプローチを最適化しているところですが、できるだけ早く最新ツールをリリースできるよう準備を進めています。

既存のZibraAIソリューションはすべて、ゲーム用コンテンツの作成プロセスを簡素化し、その品質も向上させるように設計されています。リアルタイムシミュレーションツール「Zibra Liquids」と「Zibra Smoke & Fire」により、ゲーム開発者はプロジェクトにインタラクティブでダイナミックなビジュアルを追加し、モバイルゲームであってもゲームメカニズムを構築することができます。Zibra VDB Compressionは、ベイクドエフェクトを使用する開発者のために、ゲーム内で軽量のOpenVDBを使用することを可能にします。 ZibraAIの全製品についてはこちらをご覧ください。

CG News

Topaz Video AI v3.0

AIを使用したビデオの変換ソフト「Topaz Video AI v3.0」がリリースされました。アップスケーリング、インターレース解除、モーション補間、手ぶれ補正が行えます。手ぶれ補正で存在しないフレーム外を埋めてくれるのは便利そうですね。

https://www.topazlabs.com/topaz-video-ai
https://www.topazlabs.com/learn/introducing-topaz-video-ai-v3

 

Topaz Video AI v3.0

Topaz Video AIはビデオアップスケーリング、インターレース解除、モーション補間、手ぶれ補正のための世界有数のプロダクショングレードのニューラルネットワークを、ローカルワークステーション用に最適化された状態で無制限に利用できるようにするものです。

Topaz Video AI v3.0は、ビデオの手ぶれ補正、エンハンス機能の改善、ユーザー体験の向上などの新機能を盛り込み、ゼロから構築されました。この新しいコードベースを使用することで、以下のような、お客様から最も要望の多い機能を提供することができます。

 

AIモデルのスタッキング

  • タスクの並列実行とフィルターのサポート
  • コマンドラインインターフェース
  • パフォーマンスと安定性の重要な改善

 

価格

  • 新規のお客様は$299(1年間のアプリアップデートを含む)
  • 有効なライセンスをお持ちの既存のVideo Enhance Aのお客様は、Topaz Video AI v3.0を無償で入手できます。
  • 有効なライセンスをお持ちでないお客様は、Topaz Video AI v.3.0を含む1年間のアプリケーションアップデートを$149.00でご購入いただけます。

 

 

Topaz Video AI v3.0を開発した理由

Video Enhance AIはインターレース解除、8K解像度までのインテリジェントなアップスケール、シームレスなフレームレート変換など、ビデオに影響を与える最も一般的な品質問題を改善するために開発されました。これは、ビデオを一連の一定レートの画像として扱うため、アプリのAIモデルが可変フレームレートの映像、フレームリピート、シーンの変更を処理しなければならないときに問題が発生しました。また、手ぶれ補正やシーン検出に対応した新しいモデルの開発には、映像に何度もパスをかける必要があるため、開発が複雑になっていました。

これらの新機能を開発し、革新を続けるために、私たちはこのアプリの次世代版を、全く新しいコードベースと、複数のAIモデルのスタック、並列タスクの実行、プロジェクトキューのフィルタリングなど、多数の機能改善を施した全く新しいユーザーインターフェイスの上に構築しました。

Topaz Video AI v3.0に含まれる新機能は、2つのカテゴリーに分けることができます。

  • ユーザビリティの向上
  • 新しいAIモデル

 

ユーザビリティの向上

AIモデルのスタッキング

1つのタスクで複数のAIモデルを有効にできるようになり、より柔軟なワークフローが可能になりました。例えば、スタビライズを有効にしながら4K解像度にアップスケールし、グレインを追加することができるようになりました。

 

フィルターサポートによるタスクの並列実行

ユーザーが複数のタスクを同時に実行できるようになり、より効率的なワークフローが可能になりました。複数の入力ビデオファイルから様々な設定で異なるプレビューを実行したり、複数のプロジェクトを同時に書き出したりすることができます。

また、新しいフィルタリングオプションを使用して、選択したビデオファイルまたはロードされたすべてのビデオファイルのプロセスジョブを表示し、出力プレビュータスク、エクスポートタスク、またはその両方でフィルタリングすることができます。

 

コマンドラインインターフェース

Topaz Video AI v3.0では、コマンドラインインターフェイスを使用したスクリプトの実行が可能になりました。これは、そのような環境での作業に慣れている上級ユーザー向けに設計されており、実行する様々なスクリプト処理を柔軟にカスタマイズすることが可能です。コマンドターミナルでの作業に不慣れな方は、アプリのユーザーインターフェイスを使用することを強くお勧めします。

例えば、上のスクリーンショットにあるスクリプトコマンドは、以下の指示を出します。

  1. FFmpegのスタートアップバナーを隠す
  2. ハードウェアアクセラレーションを有効にし、hevc_qsv エンコーダー (H.265) を使用
  3. エンコーダのプリセットをmediumにして、メインプロファイルを使用
  4. CRFを19に設定
  5. 出力ピクセル形式をyuv420pに設定
  6. 100%フラグメント出力を作成し、処理が中断されてもファイルを読み込めるように
  7. GPU 0でArtemis v13を使用して2倍にアップスケール

新しいコマンドラインインターフェイスの使用方法については、サポートセンターで詳細をご覧ください。

 

パフォーマンスと安定性の重要な改善

Topaz Video AI v3.0には、以下のような新しいパフォーマンスと安定性の改善も多数含まれています。

  • H264、H265、AV1(利用可能な場合)、および ProRes 444 などの高ビット出力フォーマットのハードウェアエンコーディングをすべてのプラットフォームでサポート
  • カラースペースのサポートと色精度の向上
  • 最大16ビットの色深度をサポート
  • 新しいクロップツール
  • 新しいレターボックス/ピラーボックスの検出と削除ツール
  • トリミングツールの改善
  • デフォルトのプレビューと書き出しの環境設定が可能
  • 縦長動画を含むすべてのアスペクト比に対応
  • オフライン対応により、インターネットに接続されていない状態でもアプリを使用できるようになりました。新しいAIモデルのダウンロードには、インターネット接続が必要です。
  • 外部プレーヤーアプリでプレビュー動画を再生できるようになりました。

 

 

新型AIモデル

手ぶれ補正モデル

手ぶれ補正モデルは、カメラが不安定になることで発生しがちな手ぶれやカクつきを軽減するためのモデルです。これは2つのステップで行われます。

  1. フレーム間のカメラの動きを推定し
  2. 各フレームを変換し、カメラの動きが滑らかに見えるようにする。

従来の方法では、フレーム間の個々の特徴点を見つけてマッチングさせることでカメラの動きを判断していました。それでも、フレームに低コントラスト領域、照明変化、モーションブラー、移動物体などの困難なシーンが含まれている場合、信頼性が低い可能性があります。

新しい安定化AIモデルは、個々の点ではなく、フレーム全体を考慮します。我々は従来の特徴マッチングアルゴリズムよりも良いパフォーマンスを発揮するために、挑戦的なビデオサンプルでモデルを訓練しました。

ほとんどの手ぶれ補正手法は、フレームを変換した後にできる欠落した領域を取り除くために構図を切り取る必要があり、映像の意図したフレーミングに影響を与える可能性があります。そこで、Topaz Video AIは、自動クロップオプションに加えて、隣接するフレームとAIモデルを使用して欠損領域を生成するフルフレームスタビライズを提供します。

また、Topaz Video AIは、ローリングシャッター効果の補正やジッターモーションの低減を行うオプションも用意しています。ジッターモーションを減らす」オプションは、別のAIモデルを使用して、隣接するフレーム間の空間的なジッターを減らし、3Dカメラの回転と視差効果を最小限に抑えます。

 

スローモーションモデル「Apollo」

新しいApolloモデルは、当社のオリジナルのスローモーションAIモデルであるChronosとChronos Fastと同様に、フレーム間を補間してスローモーション映像を作成し、フレームレートを変換します。しかし、Apolloモデルは、非線形な動きやモーションブラーを扱うように訓練されています。これは、隣接する4つのフレームを考慮し、それらのフレーム間のオブジェクトの動きを推定します。これにより、モデルは動きの非線形性を理解し、それに応じて中間点を補間することができます。

Apolloモデルは、非機械的な動き(例えば、人間や動物の動き、手持ちカメラの映像など)を含む映像の動きをスローダウンするのに最適なモデルです。映像にブレがある場合は、ChronosやChronos Fastの前にApolloモデルを試してみることをお勧めします。

参考資料

オープンソースのAI画像アップスケーラー「Upscayl」

オープンソースのAI画像アップスケーラー「Upscayl」1.5.0が公開されたようです。1.5.0では写真に強いRealSRが統合されてるようです。また、アップスケールを2重に適用して16倍にできるオプションが追加されたようです。品質は大丈夫なのかな。

https://github.com/upscayl/upscayl

 

Upscayl v1.5

  • memeフォルダに一括アップスケールモードを追加しました
  • 新しいデザイン
  • 新しいロゴ
  • Double Upscayl オプション。アップスケールを2重に実行できます
  • 新しい REALSR の統合。画像をシャープできます
  • バグフィックス

 

比較

中解像度の画像 ( 300 ~ 400 ピクセル)

 

ロードマップ

  • 映像のアップスケーリング対応
  • より多くのモデル
  • 全世界でFOSSを使えるようにする

 

FAQ

Upscaylの仕組みは?

UpscaylはAIモデルを使って細部を推測し、あなたの画像を向上させます。Real-ESRGAN(将来的にはもっと増える予定)モデルを用いてこれを実現します。

CLIはありますか?

CLIツールはreal-esrgan-ncnn-vulkanと呼ばれ、Real-ESRGANのリポジトリで公開されています。

GPUは必要ですか?

はい、残念ながら。NCNN VulkanはVulkanと互換性のあるGPUを必要とします。アップスケイルはiGPUやCPUでは動きません。

どうすれば貢献できますか?

より多くのNCNN互換モデルを寄付したり、PRを提出することでコードを修正することができます 🙂

完全なオープンソースではないのですか?

我々は完全にフリーでオープンソースの技術を使用しています。バイナリを同梱していますが、それは、バイナリを同梱しないとプロジェクトの目的をすべて失ってしまうからです。もしPyTorch、NCNN、Pythonのエラーに対処したいのであれば、Real-ESRGANが提供するコードを使って、あなた自身のバイナリをコンパイルすることを歓迎します。バイナリは便宜上プリコンパイルされていますが、それを信用しないのであれば、自分でコンパイルしてもかまいません、ここでは全てがフリーでオープンソースですから 🙂

UpscaylはReal-ESRGAN-ncnn-vulkanバイナリを使って画像のアップスケールを行います。より多くのモデルとアルゴリズムがまもなく登場する予定です。

CG News

Gigapixel AI v6.0 リリース

Topaz Labsは機械学習を使用してノイズ除去、アップスケールするソフトウェアGigapixelAIの新しいリリースしました。

以前からアップスケールの品質がよさそうなので気になってるソフトです。V5.3.1からはCG用のAIモードが追加されていて、低解像度のレンダリング画像をアップスケーリングして高解像度の画像をより迅速に生成するだけでなく、アップスケーリングしてから元のサイズに縮小することで、レンダリングからノイズ除去することもできるらしいです。

映像向けのVideo Enhance AIはフレームレート補間によるスローモーション作成に使えそうなので特に気になってます。

https://www.topazlabs.com/learn/gigapixel-ai-v6-0-native-apple-m1-support-improved-model-downloads-and-quality-boost-and-lots-of-usability-and-stability-fixes

 

Gigapixel AI v6.0 の概要

Apple M1シリコンのネイティブサポート

RosettaエミュレーションとIntelアーキテクチャを必要とする以前のMacバージョンと比較して、少なくとも40~50%の性能向上を体験してください。

モデルダウンロードの改善と品質向上

コンピュータの構成に必要なすべてのモデルファイルを一度にダウンロードできるようになりました。また、Very Compressedモデルを改良し、画像保存時のピクセルシフトを軽減しました。

UIの再設計、操作性の向上

多数のバグ修正 - アプリ使用中のビジュアルをより鮮明にし、バッチ処理中のメモリ処理を改善し、その他多くの有用なバグを修正しました。

 

Apple M1 シリコンにネイティブ対応

Gigapixel AI は、DeNoise AI、Sharpen AI、Video Enhance AI に続いて、Apple M1 のネイティブ・サポートを獲得した 4 つ目のコア・アプリです。
Gigapixel AIをAppleの統合型「System on a Chip」アーキテクチャにネイティブに対応させることで、Apple M1、M1 Pro、M1 Max、およびM1 Ultraユーザーに、より高速なパフォーマンスを提供することが可能になりました。アプリのロード時間、1枚の画像の編集、バッチ処理など、すべてが明らかに高速化されます。

最初のベンチマークテストでは、コールドブートからGigapixel AI v6.0をロードするのにかかった時間を、ネイティブのM1バージョンとRosettaバージョンの両方で比較しました。ご覧の通り、Rosettaエミュレーション版と比較して、ネイティブM1ビルドでは、47%もロード時間が速くなっています。

 

次に、バッチ処理などリソースを多く消費するタスクの処理速度を比較した。解像度の異なる12種類のJPEGファイルを開き、スタンダードモデルを6倍(600%)のアップスケール率で使用し、設定はオート、カラーブリードとフェイスリファインの両オプションを有効にしたバッチ処理ジョブを設定した。

バッチジョブのパフォーマンスをネイティブのM1ビルドとRosettaエミュレーションビルドで比較すると、処理時間が約44%短縮されています。さらに驚くべきことに、ネイティブのM1ビルドをIntelチップセットを搭載した同等のMacbook Proと比較した場合、バッチ処理ジョブは約55%も高速化されました。

 

 

モデルダウンロードの改善と品質向上

Gigapixel AIのモデルダウンロード方法を改善し、アプリの利用を効率化するとともに、インストーラーファイルのサイズを縮小しました。
以前のバージョンでは、ユーザーが特定のモデルとアップスケールファクターを選択したときにのみ、モデルのダウンロードが開始されました。そのモデルがまだローカルに保存されていない場合は、手動でダウンロードが開始されました。

現在では、Gigapixel AI v6.0を最初に起動すると、新しいダイアログボックスが表示され、お使いのコンピュータの構成に応じたすべてのモデルを一括でダウンロードするかどうかを確認します。この合理的なアプローチにより、モデルやアップスケールファクター間の切り替えがより速く、より邪魔にならなくなりました。

 

Gigapixel AI v6.0を起動し、少なくともいくつかのモデルをダウンロードするまでは、オフラインで画像を処理することはできませんので、ご注意ください。対応するすべてのモデルの一括ダウンロードを完了させることが最善の方法であり、特にオフラインの間、アプリをよりスムーズに使用できるようになるはずです。

また、「非常に圧縮されたモデル」の品質も大幅に改善されました。以前のバージョンでは、このモデルを使用すると、以下の図のような目に見えるピクセルシフトが発生することがありました

 

Gigapixel AI v6.0では、Very Compressedモデルの品質を向上させ、画素ずれの発生をほぼ皆無にすることができました。

 

 

UIの再設計、操作性の向上、多数のバグフィックス

DeNoise AIとSharpen AIの最近のアップデートとともに、Gigapixel AIのユーザーインターフェイスのリフレッシュの恩恵を受けることができます。色の改善とコントラストの向上により、Gigapixel AIをより明確に、より簡単に使用できるようになりました。また、標準モデルと顔認識モデルに最適化された16ビットバックエンドが追加され、一部のIntel CPUとWindows GPUユーザーにとってより高速な処理が可能になります。

さらに、使い勝手の悪いバグの修正と、バッチ処理時のメモリーハンドリングの改善も行いました。

参考資料

バンダイナムコ研究所が3000を超える3Dモーションデータを無料公開

バンダイナムコ研究所が、3000を超える3Dモーションデータ(BVH)を公開しました。日常の動作、格闘、ダンスや、アクティブ、疲れ、幸せなどは様々なスタイルが提供されています。ライセンスはCC BY-NC-ND 4.0で、研究および個人使用のために無料で利用できます。

ライブラリにはBlenderでデータを視覚化するための無料のスクリプトが付属しているそうです。

https://www.bandainamco-mirai.com/news_20220428/
https://github.com/BandaiNamcoResearchInc/Bandai-Namco-Research-Motiondataset/blob/master/README_Japanese.md

 

株式会社バンダイナムコ研究所(以下、バンダイナムコ研究所)は、AI技術(機械学習と深層ニューラルネットワーク分類技術など)の研究開発に使用できる3Dモーションデータセットを、4月28日よりGitHubにて無料公開いたします。

バンダイナムコ研究所では、メタバース及びxR技術など三次元モーションを使用する研究開発を手がけています。現在、ゲームや映像に登場するCGキャラクターは、事前にアクターの方々に演技していただき、その動きをデータ化し再現させるモーションキャプチャ技術や、専門のクリエイターが手作業により制作することがほとんどです。

しかし、今後メタバースをはじめとしたコンテンツの規模が拡大すると、個性的なキャラクターや多彩なモーションが必要不可欠になり、従来の制作過程では限界を迎えることが予想されます。

一方、このようなAIを用いたモーション研究開発は、性別や動作、演技といった様々なパターンのモーションの「データセット」が必要で、しかも入手しにくいことから、世界的に見ても研究開発が進んでいないのが現状です。

バンダイナムコ研究所では、昨年から、AI技術を活用して多彩なキャラクターモーションを生成するという研究に着手してきました。また、AI研究に今後多くの技術者が携わることでイノベーションにつながると確信しており、現在、自社で機械学習と深層ニューラルネットワーク分類技術に使用しているデータの一部をAI研究に使用できるセットとして無料で公開することにいたしました。

これにより、AI研究全体の技術の底上げやゆくゆくはエンターテインメント業界の発展につながることを期待しています。

 

【データセット内容】

名称:Bandai Namco Research Motion Dataset
公開場所:https://github.com/BandaiNamcoResearchInc/Bandai-Namco-Research-Motiondataset
セット内容:

  • データセット1 …歩行や走行、格闘やダンスなどの17種類の動作に対して、男性、女性や感情など15種のスタイルの演技モーションを収録した総計36,673フレームのモーションデータセット
  • データセット2 …歩行や、走行、手を振るなど10種の運動に対して、男性、女性、子供、老人などの属性の7種のスタイルのモーションを収録した総計384,931フレームのモーションデータセット

※非商用目的で研究やAIの検証などで利用できるライセンスになっています。