スポンサーリンク

[Cyberpunk 2077]ローカライズを支える驚異の技術

 

GamesIndustry の記事を翻訳いたしました(個人名・企業名は原文のままです)。
 固有名詞のカタカナ表記は補足でご確認ください。
 文中の英語(緑色のリンク)をクリックしても確認できます(↑で記事に戻る)。
 訳文の一番下にあるボタンからソースのページに移動できます。


 

CD Projekt が AI を使用して Cyberpunk 2077 をローカライズした理由
カナダの顔のアニメーション会社である Jali Research の Pif Edwards 氏が、
その技術が大規模 RPG にどのように貢献したかを語っています


Alex Calvin Thursday 10th December 2020


 

 『Cyberpunk 2077』に関連する著名人はたくさんいます。

 

 待望の SFRPG は、ポーランドのスタジオ CD Projekt RED(以下、CDPR)がかつて手がけた『The Witcher 3: Wild Hunt』の名声の下で作られています。
 『マトリックス』と『ジョンウィック』のスターである Keanu Reeves 氏がゲームでジョニー・シルバーハンドの役割を果たし、パンク界の伝説である Refused とポップセンセーションの Grimes の演奏がサウンドトラックに含まれます。

 

 そこに名を連ねる馴染みがないかもしれない名前の1つは、「Jali Research」(以下、Jail)です。これは、カナダのトロントに拠点を置く「顔のアニメーション会社」であり、CDPR が『Cyberpunk 2077』のローカリゼーションを行う過程を支援してきました。

 

 この組織は、

  • Chris Landreth
  • Eugene Fiume 教授
  • Karan Singh 教授
  • Pif Edwards 氏(当時、博士課程の学生)
  • によって設立されていて、トロント大学(University of Toronto)から生まれました。
     なお、Chris Landreth 氏は、アカデミー賞を受賞したアニメータ / ディレクタです。

     

     Edwarads 氏はコンピュータサイエンスの博士号を取得しており、当初は顔のアニメーションに焦点を当てたいと考えていました。しかし、「人々が(何かを)表現する場合、ほとんどは話しているときであることが判明した」ため、最終的に話し方に着目することになりました。
     (創業前ですが、)当時利用可能だった音声やアニメーションを処理するためのツールに不満を持っていたため、彼は自分で作成することにしましたのです。

     

     一方 CDPR は、2016年に毎年恒例のコンピュータグラフィックス会議 SIGGRAPH に提出されたカナダの組織からの論文を読んだ後、Jali に目を向けました。これは手続き型スピーチに焦点を当てていました。

     

     2015年の『The Witcher 3』では、CDPR はアルゴリズムを使用して、8つの異なる言語のナレーションの顔のアニメーションを処理しました。これはある程度まで成功しました。
     ただ、『Cyberpunk 2077』の開発にあたっては、ポーランドの企業はより高い目標を持っていました。英語、ドイツ語、スペイン語、フランス語、イタリア語、ポーランド語、ブラジルポルトガル語、ロシア語、北京語、日本語の10ヵ国語でリップシンクを実行したかったのです。

     

     『Cyberpunk 2077』の場合、CDPR と Jali は、機械学習とルールベースの人工知能を組み合わせて使用しました。前者は、Jali が「調整」フェーズと呼ぶものに使用されます。これは、誰かが話しているときに実際にどのような音が出ているかを把握する機械学習プロセスです。

     

    「『Hellow』(こんにちは)と発声している人の音声ファイルがあるとしましょう」
     と、Jali の共同創設者 / CTO の Pif Edwards 氏は説明します。

     

    「’H' はどこで始まり、どこで止まりますか?次に、’e'、’l'、’o'、の音はどこにありますか?
     特定の言語用にその情報をマークアップし、このデータを使用して機械学習プロセスをトレーニングして認識します。どんな音が出ているのかを」

     

    「しばらくすると、これまでに見た(入力された)ことのないまったく新しいセリフを与えることができ、音の境界がどこにあるか、これらの音素のそれぞれの長さが予測されます」

     


     

     その後、Jali は第2フェーズに移行します。アニメーションに。
     ここで、同社は昔ながらのルールベースの AI を使用して、作成されている音に対応する顔の動きを決定します。これは、より単純な 「if this、then that」システムであり、特定の入力に応答して指示された内容を実行するだけです。

     

    「ルールベースの方法論は、どのような音が出されているかを考慮して、どの口の形を生成する必要があるかを理解するために使用するものです」
     と Edwards 氏は言います。
    「たとえば、’dude’ は 'you’ と同じように見えますが、まったく異なる言葉です。(発声の際の)中心的なアーティキュレーション(口の形)は、実際には何が起こるかを予測したり、どこにあったかを覚えたりしています」

     

     さらに説明は続きます。
    「口が特定の文字や音を形作るのは、直接的な1対1のことではありません。
    『ああ、それは 'en' の音なので、(リップシンクが)このように見えます』とは判断できません。後に 'e' がある場合は、’ni' または 'noo' の音である可能性があります。
     また、’n' ノイズの発生は、前後の文字に影響され、必ずしも作成された音の形状ではありません。例えば、摩擦が発生するのに十分なほど歯を近づける 's' のようなものがあります」

     

    「私たちが話し方について知っているこれらのさまざまなことは、すべてあります。
     何が明確に表現されていても、言語学のさまざまな側面が何であれ、私たちはどのような表情が必要かが分かるという法則があります」

     

     このテクニックの組み合わせの利点は、人間が異なる言語で同じ音に対して同じ表現を行うため、異なる言語の機械学習プロセスが音声を通過すると、同じルールベースの AI をさまざまな異なる言語で使用できることです。お国言葉であっても。

     

    「各言語に合わせて各機械学習プロセスをトレーニングする必要がありますが、アニメーションコンポーネントは同じです」
     と Edwards 氏は言います。
    「私たちは日本語のための特定のアニメーションモデルを持っていません。私たちは言語モデルしか持っていません。
     誰かが話すときの口の働きの一般原則は言語固有ではありません」

     

    「驚いたことに、言語学の一般原則はすべての言語に当てはまります。
     それは難しいです。人々がこのようなルールベースの作業を望まない理由は、ルールを熟知しなければならないからです。これには長い時間がかかります」

     

     

     

     このプロセスにより、時間を大幅に節約することもできます。ゲーム内で、キャラクタに1分間話をさせる作業を完了するには、平均してアニメータが7時間を要すると推定されています。
     自分で計算を行うこともできますが、膨大な量の会話を誇るだけでなく、10の異なる言語のリップシンクをサポートする RPG 体験のためにアニメーション作業を行う必要があることということは、大変なものです。そのような作業を完了するには、とんでもない工数が必要になります。

     

     これ(Jail の顔アニメーション技術)の最終的な結果が、ゲームをローカライズする手法です。つまり、世界中のより多くの言語が「一級市民」として扱われます。
     多くの場合、ゲームには1つの言語用に設計されたリップシンクが付属しています。一般的には英語です。正直に申し上げますと。
     そこから、この英語バージョンのゲームは他の言語にローカライズされ、通常は新しい吹き替え音声の形を取ります。

     

     このプロセスには多くの労力を必要としますが、それでも翻訳は特定の口の動き無しに収まるか、元のオーディオと同じ口数に収まるように詰め込む必要があるため、結果はかなり不格好になる可能性があります。

     

     さらに、言語は言葉だけではありません。顔の表情や、何かを言いながら実際にどのように見えるかは、コミュニケーションの大きな部分です。

     

    「英語からフランス語に翻訳したいセリフがあるとしましょう」
     と Edwards 氏は説明します。
    「最終的には元のセリフよりもはるかに長くなる可能性があります。
     しかし、多くのゲームが最終的に行うのは、そのアニメーションを釣り合いが取れる長さにすることです。かなり馬鹿げているように見えるかもしれませんが、スタジオはそれをやり直すことができないため、それをしなければなりませんでした。 リップシンクを行います」

     

    「これは顔のアニメーションでもあります。
     Jali を使用すると、すべてが一致します。ゲームをプレイすると、例えば中国標準語(マンダリン)を話している人が実際にその言語を話しているように見えます。口だけではありません。額や目は瞬きする時どうなるか、首が動くと顔にどのような変化を与えるかなどです。
     すべてが起こります。英語でそれを行うのと同じエンジンが機能しているかのように」

     

     CDPR は、今日ではその大作 RPG で最もよく知られているかもしれませんが、この会社は実際には母国のポーランド向けにゲームをローカライズすることを目的に創業しました(1994年)。

     

     

     旧ソ連崩壊後の国では、ゲームを作成または公開(販売)した企業がそれをポーランド語に翻訳することに何の努力も払っていなかったため、ほとんどの人がゲームの海賊版に満足していました。
     CDPR は、人々が実際に購入する価値があると感じたものを作成し、翻訳とローカリゼーションにさらに力を入れることで、国内のゲーマは苦労して稼いだお金をこれらの製品に喜んで費やすことを見出しました。

     

     その哲学は現代にも受け継がれているようです。
     夏に、CDPR の中国の PR およびマーケティング担当ディレクタである Darren Ding 氏は、LinkedIn 投稿(削除済み)で、『Cyberpunk 2077』の予約注文で最も人気のある地域であると述べました。これは、国の規模によるところもあるかもしれませんが、簡体字中国語と中国標準語(マンダリン)の両方で(セリフが)収録され、字幕が付けられたゲームをサポートするコスチュームが登場しています。Jali のリップシンクマジックがマンダリンのために実行されているのも当然です。

     

     つまり、ローカリゼーションに関して言えば、(制作側が)努力すれば、顧客はあなたに報いるでしょう。

     

    「私は自分たちがしていることについて、ロシア人の同僚と話していました」
     と Edwards 氏は言います。
    「彼は『The Witcher 3』の大ファンですが、英語音声でしかプレイたことがありません。ロシア人はロシア語を母国語としていますが、それが最も注目を集めたゲームのバージョンであるため、英語でプレイします。
     彼はとても興奮していました。『Cyberpunk 2077』をプレイするなら、彼は英語を母語とする人と同じ経験をするでしょう」

     

     彼は次のように結論付けています。
    「これは人々がゲームにさらに夢中になるための方法です。
     (プレイヤに)フィクションであることを忘れさせ、彼らが本当に物語に没入することができるようにします」

    I


    ついでに、「管理人からひとこと」を読んでみる


     

    補足 カタカナ表記


    原文カタカナ表記
    Keanu Reeves キアヌ・リーブス

    Chris Landreth クリス・ランドレス

    Eugene Fiume ユージーン・フィウメ

    Karan Singh カラン・シン

    Pif Edwards ピフ・エドワーズ

    Darren Ding ダレン・ディング


    先頭に戻る




     

    補足 リップシンク(lip-syncing)

     セリフの音声データに同期する(CG アニメーションの)唇の動き。
     以下の本文でも具体的説明があります。

    記事に戻る




     

    補足 if this、then that

     結局、直訳になってしまいますが「もしこうならば、その場合はこうする」。
     いわゆる、条件分岐です。単純な。

    記事に戻る



     

    管理人からひとこと

    色々と驚かされます。とにかく。
    待て待て嘘でしょ、と思ったのですが、反面大変納得でもあります。
    つまり、人体の構造は「世界共通」です。ならば、その機能も。
    ただ、それを抽象化し、理解するのにどれほどの苦労をされたことでしょう。
    CG アニメーションに進化の余地はまだまだありそうです。
    インタラクティブなコンテンツにも、いくらでも応用できそうですね。


    スポンサーリンク