自動音声認識(ASR)と機械翻訳が字幕を変える
今や世界中で多くの人が日常的に動画を視聴しています。TikTokで話題の動画や、YouTubeのハウツー動画、テレビ番組などコンテンツはさまざまあり、1日に何本もの動画を観ていることでしょう。
日々動画が作られ、スマホ、タブレット、PCなどで視聴できるようになるにつれ、字幕の需要も変化してきました。音声をオフにしながら字幕を付けて動画を見たり、母国語以外の言語の動画を楽しんだりするようになっているのです。
動画やリアルタイムプログラムにおける字幕の重要性は高まっていますが、字幕を付けるのは面倒な作業です。しかし、自動音声認識(ASR)と機械翻訳の登場で、字幕制作は飛躍的に簡単になったのです。
視聴者にとっての字幕とは
かつての字幕は今とは異なる使われ方をしており、その歴史は1900年代初頭までさかのぼります。当時はサイレント(無声)映画を観ている人を引き込むために字幕が付けられていました。視聴者が観ていることの状況を説明するために字幕が使われていたのです。
テレビや映画が音声・音響付になると、字幕は聴覚障害のある人々に必要とされるものになりました。そうした需要は現在もありますが、より多くの視聴者にとって字幕は一般的なものとなり、動画制作の重要な要素であると認識されるようになっています。
字幕を付けるメリットは、
- 母国語以外の動画の視聴が可能になる:字幕を付けることで音声言語を理解できない潜在顧客にもアプローチできます。
- 世界の視聴者に発信できる:翻訳された字幕があれば、検索にヒットしやすくなり、結果として多くの視聴者の目に止まるようになります。
- 検索エンジン最適化(SEO)に効果的なキーワードを付けられる:字幕にSEOキーワードを入れ込むことで動画を検索で上位に入りやすくできます。
- ユーザーフレンドリー:動画の音声言語が分かる人にとっても、字幕を付けて動画を観ることができる字幕オプションは、動画は見たいけれど音は出したくないという状況に便利です。
- 視聴体験の向上:使用言語が異なる人にも、聴覚障害のある人にも、利便性を求める人にも、視聴者の状況や好みにかかわらず、字幕を付けることで全ての人が快適に動画を楽しむことができます。
このように、字幕には大きなメリットがあるものの、質の良い字幕を作ることには、時間、費用、スキルが必要です。そこで、自動音声認識(ASR)や機械翻訳の活用が字幕制作の解決策となるのです。
自動音声認識(ASR)
どのように自動音声認識(ASR)と機械翻訳を字幕制作に活用するかに踏み込む前に、この2つの技術について確認しておきましょう。
自動音声認識(ASR)は、進化し続けている人工知能(AI)を活用して話し言葉などの音声を機械に認識させ、音声コンテンツをテキストに変換する技術です。ASRの技術の向上により、多くの業界で活用されるようになっています。ASRは、機械学習アルゴリズムを使い、話し言葉を瞬時に認識し、テキストに書き起こします。
スマートフォンでよく使われる音声のテキスト変換や、自宅で使うバーチャルアシスタントなど、多くの人が、買い物リストを作ったりメモを書き残したりするのに音声認識機能を利用しています。
機械翻訳の概要
機械翻訳とは、コンピュータプログラムを使って、テキストをある言語から別の言語に翻訳することです。機械翻訳はほとんどの言語を1時間に数百万語を処理することができるので、効率的な翻訳が可能です。
自動音声認識(ASR)と同様、機械翻訳の精度と速度は日々進化しています。AIとニューラル機械翻訳の発展により、機械による翻訳文の質が向上し、人間の翻訳者の作業(ポストエディット)と併せて活用されるようになっています。
自動音声認識(ASR)と機械翻訳を字幕制作に活用する
字幕を作成する場合、まずは動画の音声を書き出すことから始めます。トランスクリプト(台本)を一度に1単語ずつ入力するのは大変な時間がかかります。
ところが、自動音声認識(ASR)が開発されたことにより、この文字起こしのプロセスが大幅に改善され、動画の話し言葉のスクリプトが瞬時に自動生成できるようになったのです。
自動音声認識(ASR)技術には2種類あります。
- オフラインASR:テレビ番組、映画、事前収録されたメディア媒体に適した技術です。
- ライブASR:音声をリアルタイムで文字化できるため、スポーツイベントやライブ番組などの生放送に最適です。
他の言語でも動画を見てもらいたい場合、機械翻訳で字幕を作成します。音声を拾ったら、機械翻訳ツールに元の言語を入力し、翻訳したい言語に変換します。
その後、出力された翻訳テキストを、字幕として動画に入れ込むという流れになります。
自動音声認識(ASR)と機械翻訳による字幕作成のメリット
より多くの企業がASRと機械翻訳の可能性を探求しているので、その活用はますます広がっていくことでしょう。字幕制作にASRと機械翻訳を使用するメリットは以下の通りです。
- 誰でも簡単に素早く字幕を作成:ASRと機械翻訳を活用すれば、字幕をいつでも(放映前に、あるいは放映中にも)即座に作成できるので、多くの視聴者にコンテンツを楽しんでもらうことができます。ASRは手入力よりも格段に早く、瞬時に音声を文字変換します。
- 簡単に動画説明を付ける:プロセスが自動化されていれば効率的に活用することができます。特に音声品質が悪い場合や、画面に映っているものがわかりにくい場合、字幕を付けることで動画の内容を把握しやすくできます。
- マーケティングおよび販売戦略として:人は字幕なしよりも字幕付きの動画をよく観る傾向にあるので、字幕付動画のウェブサイトに留まる時間が増え、商品の購入につながります。ASRと機械翻訳を活用することで、より効率的に字幕付き動画が実現できます。
- コストを削減し、効率を上げる:文字起こしと翻訳にかかる時間が節約されるため、動画制作全般をより効率的に進めることができ、結果として制作コストを削減することができます。
- 競争に勝つ:このような技術を駆使することで、企業はブランド拡大と製品のマーケティングに時間を費やすことができ、業界での競争力の獲得につながります。
字幕作成技術の課題
AI機械翻訳にはこのようなたくさんのメリットがありますが、以下のような課題も残っています。
- 文法:機械では文法のルールが的確に処理されないケースもあります。例えば、同じように聞こえても意味が異なる同音異義語は、ASRが間違えて認識する可能性があります。
- 専門用語:法律や医療分野などの業界には、多くの専門用語があり、ASRがこれらを正確かつ適切に認識するのが難しい場合があります。
- 使用機器の影響:音声認識を行う際、バックグラウンドノイズを除去する機能など、特定の機能を備えた機器の使用が望まれます。
- 話者の影響:話者の話し方の明瞭さ、つまり機械が話者の言葉をどれだけ正しく理解できるかが字幕の品質を左右します。
同様に、機械翻訳技術にも、文法や専門用語の問題などの課題があります。さらに、機械翻訳では、ニュアンスや時にはユーモア、意図されたトーンなどの人間独特の特性を翻訳することに限界があります。
最終確認:機械翻訳ポストエディット(MTPE)
ASRと機械翻訳の課題や限界への対策として、はずせない最終確認の作業が機械翻訳ポストエディット(MTPE)です。MTPEを行うことで、ASRと機械翻訳の速度と効率という利点に、人間による翻訳の利点が組み合わさり、質の高い字幕が出来上がります。
人間の翻訳者は、ASRと機械翻訳によって作成された字幕のコンテンツが正確であり、かつ明確であるかを確認します。字幕の使われ方や制作状況によって、ライトポストエディットとヘビーポストエディットという2種類のポストエディットを使い分けることが可能です。
翻訳会社・言語サービスプロバイダー(LSP)との連携
字幕制作のためのオンラインシステムやアプリは多数ありますが、それらには限界があります。ASRツールと機械翻訳サービスを提供している翻訳会社・言語サービスプロバイダー(LSP)であれば、幅広い作業に対応してくれますので、以下に述べる点に注意して作業の依頼先を選択しましょう。
- 正確性:誤った情報というものは、顧客離れにつながります。字幕制作にあたっては、正確な内容を視聴者に伝えることが重要です。
- 効率性:字幕ソフトを使用する方が効率的であるようにも思えますが、間違いがあった場合に修正を繰り返すことになれば、作業効率は下がります。
- 統合システム:ASRプログラム、機械翻訳システム、およびその他必要なソフトウェアは、どれも互換性が良いとは限りません。専門の技能やシステムを有する翻訳会社・LSPと連携することは、その会社が有する専門知識以外にも、文字起こしから、翻訳、MTPEまで完全に統合されたシステムを利用できることでも利点があります。
- カスタマイズ:翻訳会社・LSPは、顧客の希望要件や、特定のニーズに合わせてサービス内容を柔軟にカスタマイズしてくれます。
ここにあげたASRと機械翻訳の利点をみれば、これらの技術を駆使した字幕制作が、いかに動画業界に新しい革命をもたらしているかがわかります。専門知識と技術を併せ持つ翻訳会社・LSPと連携し、高品質な字幕を視聴者に提供してください。