2015年7月8日水曜日

自動文字起こし

皆さま、こんにちは。ねこです。
今日は自動文字起こしの
裏ワザについてお話ししたいと思います。

その前に、「文字起こし」という
英語について。

カタカナ英語で「ディクテーション」という
言葉を聞いたことがあるかと思いますが、
文字起こしを意味する単語としては、
"transcribe(文字に起こす)"
"transcription(転写)"という表現を
使うのが一般的です。
主体は書き写す側です。

"dictate"というのは、
「口述して書き取らせる」という意味です。
"dictation"は「口述」「書き取り」です。
主体は口述する側です。

"take dictation"と言うと、
「口述を書き取る」という意味になり、
主体は書き取る側になります。

さて、前置きはここまでにして、
具体的な文字起こしの裏ワザについて
お話ししましょう。
ただし、録音状態によって、
うまくできるものと、そうでないものがある
ということだけはご了承くださいね。

この裏ワザで使うのは
YouTubeの音声認識技術です。

まず、文字起こしをしたい音源を用意します。
それに何らかの写真を付け、動画を作ります。
YouTube上でスライドショーを作ることも可能ですし、
Windows Live ムービーメーカーや
iMovieなどを使って、動画を作って
アップロードする方法もあります。

詳しい手順はこちら:
https://support.google.com/youtube/answer/1696878?hl=ja

会議などの動画(音声)をアップする時は、
必ずプライバシー設定を
「Private」にしておきましょう。
また、アップロードするファイル名や写真なども
「vol1」など、内容を特定できないものに
しておくほうが無難かと思います。

今回は、内容とはまったく無関係な
半纏の写真1枚とインタビュー音声で動画を作り、
YouTubeにアップしました。
こんな感じです。


(※今回は英語のインタビューなので
アップする際に、動画の言語を指定する部分で
「英語」を選択しています)

アップロードが完了して数分経つと、
画面の右下に「CC」という表示が出てきます。
これはClosed Caption(いわゆる字幕)を
「表示する/表示しない」のボタンです。

音声自動認識の英語字幕を表示して、
どのくらい正確に文字起こしが
行われているかを確認してみましょう。

・ネイティブが1人ずつ明瞭に話している
・音声状態がいい

という条件下では、
驚くほど見事な英語字幕が
表示されます。

例えば、こんな動画です。
https://www.youtube.com/watch?v=PUnSCgJajIE
(※これは、ねこがアップしたものではなく、
ランダムに検索して見つけたものです)

ところどころ、誤認識はありますが、
自動音声認識とは思えないほど
かなり正確に文字を拾っています。

・話者が数人いて声が重なる
・音声状態が悪い

という音源の場合は、
字幕なんてないほうがマシ
というような崩壊的な英文が出ます(汗)。

なので、最初の3分~5分で試してみて、
うまく音声を認識しそうなら、
この方法を活用してください。
音声状態が悪い場合は、
自力で書き起こしたほうが
早いかと思います。

うまく音声が拾えた場合、
この字幕データを丸ごと拾い集めましょう。
動画の左下にある
「More」というところをクリックします。
(※日本語設定なら「その他」)

そして、「Transcript」をクリックします。
(※日本語設定なら「文字起こし」)


はい、こんなふうに字幕一覧が出ます!
(※一部、白のマーカーで隠しています)


これをドラッグで選択して、
メモ帳やワードファイルなどに
コピペします。
そして、音声を聞きながら、
違っている部分を修正してください。

その後、利用した動画は、
ネット上に置いておかず、
速やかに削除しましょう。

ちなみに、映像翻訳者が作業に使うような
タイムコード入りの動画をアップすると、
著作権の問題に引っかかって、
Googleさんに一方的に削除されます。

くれぐれも著作権問題や、
秘密保持問題にはご注意ください。
情報の漏洩などについて、
ねこは責任を取れませんので
そのあたりは自己責任でお願いします。

それにしても、
自動音声認識の技術は発達してほしいけれど
自動翻訳の技術は発達しないでほしいなぁ…
と思うのは、翻訳者のエゴですかね(笑)