【ありブラ vol.28】意外と知らない!?「トランスコード」でビジネスを成功に導く秘訣とは?(その2) | GameBusiness.jp

【ありブラ vol.28】意外と知らない!?「トランスコード」でビジネスを成功に導く秘訣とは?(その2)

連載 その他

【ありブラ vol.28】意外と知らない!?「トランスコード」でビジネスを成功に導く秘訣とは?(その2)
  • 【ありブラ vol.28】意外と知らない!?「トランスコード」でビジネスを成功に導く秘訣とは?(その2)
  • 【ありブラ vol.28】意外と知らない!?「トランスコード」でビジネスを成功に導く秘訣とは?(その2)
  • 【ありブラ vol.28】意外と知らない!?「トランスコード」でビジネスを成功に導く秘訣とは?(その2)
GameBusiness.jp、インサイドをご覧のみなさま、こんにちは!

今回は、今話題の技術「トランスコード」を正しく理解し今すぐビジネスに活かすための特集、第2弾です。前回は、導入章ということで、動画コンテンツの種類や市場の規模についてご紹介しました。また、ゲーム業界と動画との関係の歴史や、筆者が所属するCRI社の動画系ミドルウェア技術の変遷(オープニングムービー向けから特殊再生ニーズへ)についても触れました。

【ありブラ vol.27】意外と知らない!?「トランスコード」でビジネスを成功に導く秘訣とは?(その1)
http://www.gamebusiness.jp/article/2015/11/20/11639.html

肝心の「トランスコーダ」の核心にたどり着く前に字数制限(?)に達してしまいましたので、いよいよ本題に突入です。

今回は、技術面から、この「トランスコーダ」についてご紹介します。なるべく分かりやすくお伝えしたいと思いますので、「あまり技術には詳しくないんだけど・・・?」という方も、安心してお付き合い下さい。また、動画ビジネスをすでに展開中であったり、これから参入を考えていらっしゃる方も、動画ファイルの肥大化の問題は頭の痛い問題だと思います。そうした悩みの解決に少しでもお役に立てればと思っております。

それでは「ありがとう、ブラックボックス」略して「ありブラ」、今週もスタートです!ぜひリラックスしてお楽しみ頂ければと思います。

動画データ爆発のはじまり



動画のエンコードやトランスコードの役割は、日々、大きくなっています。

DVDなどの物理メディアが中心の時代と比較しても、昨今では、インターネットを介しての動画視聴はとても手軽で身近なものになりました。反面、動画はその性質上、インターネット上でやり取りされるデータのなかでも非常にファイルサイズが大きいものの1つにもなっています。コンテンツ自体や受像機(ディスプレイ)の高解像度化やカメラの性能向上とも相まって、動画データの肥大化にはますます拍車がかかっています。

Cisco Systems, Inc. が今年の6月に発表したホワイトペーパーには、

“Globally, consumer internet video traffic will be 80 percent of all consumer Internet traffic in 2019”
(『Cisco Visual Networking Index: Forecast and Methodology, 2014-2019』by Cisco Systems, Inc. より引用)

【筆者による参考訳】
「全世界的に、2019年には、コンシューマ向けインターネット動画によるトラフィックが全インターネットトラフィックに占める割合が80%に至るだろう」


と記載があり、動画データのインターネットにおける影響力が今後ますます大きくなっていくことがうかがえます。

ただ、こうした大容量のメディアデータを扱うためには、そのコストも無視できません。

サーバ上に動画データを保有しておくためのストレージコスト、動画データを効率的に視聴者にデリバリーするための配信コスト(CDNなどのトランザクションコスト)など、動画を扱うサービスの場合はその動画データのファイルサイズに比例しコストが嵩(かさ)んでいきます。そのため「いかに品質を保持したままでファイルサイズを極小化するか?」という視点が重要になってくるわけです。

そして、そのための具体的な手段が「エンコード」「トランスコード」というわけです。

復習になりますが、

「エンコード(encode)」とは、オリジナル素材(非圧縮AVIや連番静止画など)をもとに圧縮処理を行い、配信用(または組み込み用)の動画ファイル(MP4やmovなど)を生成すること


です。さらに、

「トランスコード(transcode)」とは、エンコード済みの動画ファイルをもとに再圧縮処理を行い、それぞれの端末に応じた仕様の動画ファイルを生成すること


です。

次項では、これらの技術について、もう少し詳しくご紹介していきます。

エンコードとトランスコードの違い



エンコードというのは「en + code」と表記されることからもお気づきかと思いますが、本来、動画に限定して使われる言葉ではありません。圧縮全般のことを意味し、すなわち、データ量を減らすことと同じ意味です。ただ近年ではとくに動画について使われることが多くなっており、単に「エンコード」と表現する場合は「動画の」エンコードを指し示すことがほとんどです。

このエンコード技術、実は、私たちの身近なところでも頻繁に行われています。しかも、みなさんの掌のスマホのなかでも!!

例えば、スマホのカメラで動画撮影を行うと、撮影したデータは自動的にエンコードされ、内部のストレージやメディアに保存されます。さらに、カメラロールなどに保存された動画データをSNSなどにアップロードする際も、通信料を抑えるために再度エンコードが行われる場合がほとんどです。また、Wi-Fi接続の場合だけ高解像度で動画をアップロードし、LTEや3Gの場合は解像度を抑えてアップロードするという仕組みが備わっているSNSが一般的です。



ちなみに、この「エンコード(encode)」の対になる言葉が、「デコード(decode)」です。圧縮されたデータを展開することを指します。このデコードという言葉を覚えておくと、次に説明するトランスコードのことを、より理解しやすくなります。

トランスコードとは、ある形式にエンコード済みのデータを異なる形式にエンコードし直すことです(ここで言う「形式」とは、ファイルフォーマットや拡張子の違いだけを指しているわけではありません)。そのためには、処理の最初にデコードを行う必要があります。素材となる動画データのデコードを行い、メモリ上に非圧縮の動画データを作り、それを再度エンコードすることで最終的な動画データに変換します。

トランスコードで行われるデコードとエンコードは逐次処理を行いますが、概ねエンコード処理のほうが重い(時間がかかる)ため、トランスコードに要する処理時間はエンコード時間に依存します。

このように、トランスコードとは、エンコードの一種であるとも言えます。

かつては、トランスコードの処理についても「エンコード」と呼ぶことが多かったのですが、最近では、むしろ「トランスコード」や「トランスコーダ」という言葉を耳にすることのほうが増えてきています。

このことには、2つの理由があります。

1つは、動画を視聴するためのデバイスやサービスが多様化したこと。
もう1つは、いわゆるRAWデータ(元素材)の保持が難しくなってきたことです。

前者は、改めて説明する必要もないかとは思いますが、解像度やスペック、配信手段などが異なる受像機(=端末)ごとに、それぞれ最適な動画ファイルを生成する必要があるからです。

後者は、動画のハイレゾ化の影響により、いわゆる非圧縮(または低圧縮)の元素材(非圧縮AVIや連番静止画など)のファイルサイズがあまりにも肥大化し、長期にわたって保持し続けるのが困難になってきているからです。例えば、16K映像を非圧縮で保存する場合、1TBのストレージでもたったの31秒しか記録できません!

こうした背景からも、トランスコードがますます重要な役割を担うようになってきていることがお分かりいただけるかと思います。

画質とファイルサイズはトレードオフ?



エンコードもトランスコードも「いかに品質を保持したままでファイルサイズを極小化するか?」が大事なポイントだとお伝えしてきましたが、おそらく読者のみなさんも「素朴な疑問」を抱かれたのではないかと思います。それは、、、

「画質とファイルサイズは、そもそも、トレードオフなのではないのか?」という疑問です。

つまり、画質を優先すればするほどファイルサイズは増えてしまうし、ファイルサイズを少なくしようとすれば画質を犠牲にするしかない、というジレンマです。



実は、ふつうにエンコードやトランスコード処理をおこなってしまうと、このジレンマの問題が発生します。ですが、動画の圧縮は「不可逆圧縮(後述)」であり、「人間が(劣化を)知覚できるかどうか」という価値基準で圧縮を行うことができるのです。

圧縮には「可逆圧縮」と「不可逆圧縮」の2種類があり、呼んで字のごとく、前者は「圧縮前のデータに完全に復元することができる」圧縮形式で、後者はそれができない形式になります。ロスレス圧縮という表現をする場合、前者にあたります。前者は完全復元ができますが、圧縮率に限界があります。その点、後者は完全復元が出来ない代わりに、圧縮率を大幅に伸ばすことが可能になります。別の言い方をすると、可逆圧縮はもはや工夫のしようが無いものと言って良いのですが、不可逆圧縮は工夫の仕方によって、かなりアウトプット(圧縮率の高低)に差が出てきます。対象となるファイルの種類やその用途によって、この2つの圧縮形式を使い分けられていますが、こと動画に関しては不可逆圧縮が主流となっています。

人間が目で見ても違いや劣化を感じない(感じにくい)要素を積極的に圧縮処理することで、元素材の画質と遜色のない動画を実現するわけです。

インターネット上で頻繁に使われている動画のコーデックに「H.264」というものがあります。とても有名なコーデックなので、耳にしたことがある方も多いかと思います。あるいは、コンテナフォーマットである「MP4」という名前で聴いたことがあるかもしれません。

このH.264コーデックは、ISO/IEC、ITUといった団体によって厳密に規格が定められています。世界標準としての規格だからこそ「圧縮率やファイルサイズも一定にしかならないんじゃないの?」と思われるかもしれません。(実は、IT系の企業に勤められている方やエンジニアの方のなかにも、意外と、この思い込みをされている方が少なからずいらっしゃいます…汗)

でも、これは実は、間違いです。

エンコード(トランスコード)処理の工夫の仕方によって、かなりの差が生まれます。

H.264は多くの圧縮手法を組み合わせた規格です。例えば「画面内予測」、「動き補償」、「重み付き予測」、「デブロッキング・フィルター」、「エントロピー符号化」などが代表的な圧縮手法ですが、これらのどれを使うかはシステムが決めることになっています。つまり、ここに1つ工夫があるわけです。

また、H.264の規格はさまざまな端末で安定した動画再生を保証するために、動画データ量に制限を設けています。エンコード時はこの制限に収めるように処理をします。もう少し具体的に言うと「1秒間あたり1MBまで」というような制限があります。ご存知のように動画は静止画を連続して表示することで動く画像として見せています。このため「1秒間あたり1MBまで」という上限は、1秒間の上限ではあっても、静止画1枚1枚の上限を決めるものではありません。1MBをどういった配分で静止画に割り当てるか、それが工夫の1つになります。

まとめると、「同じH.264の動画でも、使用するエンコーダやトランスコーダの種類、映像素材に最適な圧縮手法を行っているかどうかで、出力される動画データのファイルサイズに大きな差が生じる」ということです。



プロファイルとレベル



同じ動画フォーマットでもエンコード手法によって大幅にファイルサイズと画質が変わってしまう、とお伝えしました。しかし、どんな圧縮手法を選んでもOKというわけではありません。

そこでポイントになるのが「プロファイル」「レベル」です。圧縮手法やフレームレート、ビットレート、解像度といった各種仕様が、この2つの概念で細かく規定されています。

詳説は省きますが、「プロファイル」とは「使用が許されている技術の組み合わせ」のことで「圧縮手法のうちどの手法をサポートしているか」が定められています。また、「レベル」とは「画質を決定するパラメータ」のことで「ビットレートの最大値や最大フレーム数などの範囲」が規定されています。

プロファイルは「ベースラインプロファイル」「メインプロファイル」「ハイプロファイル」の3つが代表的です。また、レベルは現状、整数桁で1~5の間で細かく規定されています。自由になんでも試して良いというわけではなく、実際に動画を再生する端末やOSがそのプロファイルやレベルをサポートしているかどうかに注意しながら選択する必要があります。一例ですが、Android OSがサポートしているプロファイルは(公式には)ベースラインのみとされています(記事執筆時現在)。

ちなみにプロファイルというのは、想定される使用シーンから定められた経緯があります。たとえばビデオチャットのようにリアルタイム性が必要なものには「ベースラインプロファイル」、放送、蓄積のように主要なターゲットとしていたものは「メインプロファイル」、規格策定当初から増えつつあった高解像度向けには「ハイプロファイル」、というような感じです。

ある端末やアプリケーションを開発する際に「H.264に対応しています」と謳いたい場合、こうしたすべてのプロファイルに対応しなくても、いずれかに対応していればOKです。例えば、ビデオチャットを実現したいアプリケーションにとってハイプロファイルに含まれる圧縮手法は必要ないため、開発コストを抑えられることになるわけです。ただ、チップ開発ベンダーなど、汎用的な用途に製品やサービスを展開する事業者にとっては、サポートする規格の網羅性がとても重要になるため、ベースラインだけにしか対応していない、といったケースは少ないです。

---

このように、同じ動画フォーマットであっても、

・規格が許すパラメータ範囲のなかで最大限に工夫をはかる
・再生端末ごとに最適なプロファイルとレベルを選択する


こうした点に最大限配慮をすることで、画質を妥協することなく、ファイルサイズを大幅に減らすことができるようになります。


・・・とはいえ、これを実際に人手で実現するためには、豊富なノウハウ(多くの試行錯誤の経験)や、画像解析や信号処理に関する専門的な知識が必要になります。もちろん、圧縮後の画質と元素材の画質の「違い」を見極めるための、確かな「眼力」も不可欠です。

まさに「職人技」といっても良いほどの高いスキルが求められます。

こうした「ノウハウやコツ」をどなたにも活用して頂けるようにしよう!ということで、CRIでは、この「画質を維持したまま動画のファイルサイズを大幅に削減する」技術のツール化を進めています(社内でのプロジェクト名は「CRIトランスコーダ(仮称)」となっています)。

次号(その3)では、この「CRIトランスコーダ(仮称)」がなぜ他のトランスコーダやエンコーダと比べて大幅にファイルサイズを削減できるのかについて、実際のサンプル素材をご覧頂きながらご紹介していきたいと思います。対応している入出力フォーマットや動作環境、そして、気になるエンコード性能についても詳しくお伝えします。

それでは、また次回の更新でお会いしましょう!

【ありブラ公式facebook】
最新記事の更新情報や、記事には書けなかったウラ話、はみだしコラムなど、『ありブラ』に関する情報を随時更新中。ページに「いいね!」をして頂くだけで、つねに最新の情報をアナタのfacebookのタイムラインにお届けします!
http://crimw.me/fb-aribla

【ありブラ公式twitter】
@hirabla
http://crimw.me/tw-aribla

読者の方からのご意見ご感想やご質問なども大歓迎です。以下のコンタクトフォームからどうぞ。なるべく多くの方のご意見に誠意をもってお返事したいと思っております。

https://www.iid.co.jp/contact/media_contact.html

幅朝徳(はば とものり)

株式会社CRI・ミドルウェア 商品戦略室 室長、CRIWAREエヴァンジェリスト。学習院大学卒業後、CRIの前身である株式会社CSK総合研究所に入社。ゲームプランニングやマーケティング業務を経て、現CRIのミドルウェア事業立ち上げに創業期から参画。セガサターンやドリームキャストをきっかけに産声を上げたミドルウェア技術を、任天堂・ソニー・マイクロソフトが展開するすべての家庭用ゲーム機に展開。その後、モバイル事業の責任者として初代iPhone発売当時からミドルウェアのスマートフォン対応を積極推進。ゲーム企業とのコラボでミドルウェアの特性を活かしたアプリのプロデュース等も行う。近年は、ゲームで培った技術やノウハウの異業種展開として、メガファーマと呼ばれる大手製薬会社のMR(医療情報担当者)向けのiPadを使ったSFAシステムを開発、製薬業界シェアNo.1を獲得しゲーミフィケーションやゲームニクスの事業化を手掛ける。ますます本格化するスマホゲームのリッチ化を支援するためにモバイルゲーム開発者におけるミドルウェア技術の認知向上のためエヴァンジェリストとしての活動に注力中。最近は、ウェアラブルやIoTといった領域での新規の事業開拓や未来のサービス開発を担当、業界の枠組みを超えた協業、世の中にとって全く新しい付加価値の実現のために日々奮闘中。

趣味は、クロースアップマジックと陶芸、映画鑑賞とドライブ、鳥類/フクロモモンガ/爬虫類の飼育、そしてもちろん、ゲーム。デジタルガジェット大好きなギーク。

幅朝徳Facebook
http://www.facebook.com/tomonori.haba

幅朝徳Twitter
http://twitter.com/havahava
《幅朝徳》

関連ニュース

特集

人気ニュースランキングや特集をお届け…メルマガ会員はこちら