Whisper は、音声認識と文字起こしのための機械学習モデルであり、OpenAI によって開発され、2022年9月にオープンソースソフトウェア として初めて公開された[ 2] 。
英語を含む複数の言語で音声を文字起こしできる他[ 3] 、英語以外の複数の言語を英語に翻訳することもできる。OpenAIは、開発において多様な訓練データを使用したことで、従来の手法と比較して、アクセント、背景雑音、専門用語の認識精度が向上したと主張している[ 4] 。
Whisperは弱教師あり学習 を用いた深層学習 音響モデルであり、エンコーダ・デコーダトランスフォーマー アーキテクチャを使用して構築されている[ 5] 。
Whisper V2は2022年12月8日にリリースされた[ 6] 。Whisper V3は2023年11月のOpenAI Dev Dayでリリースされた[ 7] 。
背景
音声認識は長い研究の歴史を持つ。初期のアプローチでは、動的時間伸縮法 (英語版 ) や後に隠れマルコフモデル といった統計的手法が用いられていた。2010年代頃には、大規模データセット(「ビッグデータ 」)の利用可能性と計算性能の向上により、音声認識モデルに深層ニューラルネットワーク を用いるアプローチが一般的になった[ 8] 。音声認識における深層学習の初期のアプローチには畳み込みニューラルネットワーク が含まれていたが、系列データを捉えることができないという制限があった。そのため、後にSeq2seq アプローチが開発され、そこでは長・短期記憶 を利用した回帰型ニューラルネットワーク が用いられた[ 9] 。
2017年にGoogle によって導入されたTransformerは、機械学習における多くの問題に対する従来の最先端のアプローチの多くに取って代わり、言語モデリングやコンピュータビジョンなどの分野における中核となるニューラルアーキテクチャになり始めた。弱教師あり学習を用いた音響モデルの学習アプローチは、2020年代初頭に深層ニューラルネットワークを用いた音声認識アプローチとして有望であると認識された[ 10] 。
ニューヨークタイムズ の報道によると、2021年にOpenAIは、大規模言語モデル の学習に使用する高品質データのソースを使い果たしたと考え、YouTube 動画やポッドキャスト の書き起こしでウェブスクレイピング テキストを補完することを決定し、このタスクを解決するためにWhisperを開発した[ 11] 。
学習と能力
Whisperは、68万時間の多言語およびマルチタスクデータを用いて半教師あり学習で訓練されており、その約5分の1(11万7000時間)は英語以外の音声データである。WhisperはLibriSpeechデータセットに特化したモデルの性能を上回らないものの、多くのデータセットでテストした結果、他のモデルよりも堅牢で、エラーが50%少ない[ 12] 。
Whisperは、訓練データであまり表現されていない言語では単語エラー率が高くなるなど、言語によって異なるエラー率を示す[ 13] 。
このモデルは、音声認識とより一般的な音声認識のための統合モデルの基盤として使用されている[ 14] 。
アーキテクチャ
Whisperのアーキテクチャは、エンコーダ・デコーダトランスフォーマーに基づいている。入力音声は30秒のチャンクに分割され、メル周波数ケプストラム (英語版 ) に変換された後、エンコーダに渡される。デコーダは、後続のテキストキャプションを予測するように訓練される。フレーズレベルのタイムスタンプなど、いくつかのタスクを実行するために特別なトークンが使用される[ 15] 。
脚注
^ Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (6 December 2022). "Robust Speech Recognition via Large-Scale Weak Supervision". arXiv :2212.04356 [eess.AS ]。
^ Golla, Ramsri Goutham (2023年3月6日). “Here Are Six Practical Use Cases for the New Whisper API ” (英語). Slator . 2023年3月25日時点のオリジナルよりアーカイブ 。2023年8月12日 閲覧。
^ Dickson, Ben (2022年10月3日). “How will OpenAI's Whisper model impact AI applications? ” (英語). VentureBeat . 2023年3月15日時点のオリジナルよりアーカイブ 。2023年8月12日 閲覧。
^ Wiggers, Kyle (September 21, 2022). “OpenAI open-sources Whisper, a multilingual speech recognition system ” (英語). TechCrunch . February 12, 2023時点のオリジナルよりアーカイブ 。February 12, 2023 閲覧。
^ Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (6 December 2022). "Robust Speech Recognition via Large-Scale Weak Supervision". p. 3. arXiv :2212.04356 [eess.AS ]。
^ “Announcing the large-v2 model · openai/whisper · Discussion #661 ” (英語). GitHub . 2024年1月8日 閲覧。
^ (英語) OpenAI DevDay: Opening Keynote , https://www.youtube.com/watch?v=U9mJuUkhUzk 2024年1月8日 閲覧。
^ Yu, Dong; Deng, Li (2014) (英語). Automatic speech recognition: a deep learning approach . Signals and communication technology (2015th ed.). London Heidelberg: Springer. pp. 9. ISBN 978-1-4471-5778-6
^ Siddique, Latif; Zaidi, Aun; Cuayahuitl, Heriberto; Shamshad, Fahad; Shoukat, Moazzam; Qadir, Junaid (2023). "Transformers in Speech Processing: A Survey". arXiv :2303.11607v1 [cs.CL ]。
^ Paaß, Gerhard; Giesselbach, Sven (2023-02-16). “Foundation Models for Speech, Images, Videos, and Control” (英語). Foundation Models for Natural Language Processing . Artificial Intelligence: Foundations, Theory, and Algorithms. pp. 313–382. arXiv :2302.08575 . doi :10.1007/978-3-031-23190-2_7 . ISBN 978-3-031-23189-6
^ Davis, Wes (2024年4月6日). “OpenAI transcribed over a million hours of YouTube videos to train GPT-4 ” (英語). The Verge . 2024年4月20日 閲覧。
^ “Introducing Whisper ” (英語). openai.com (2022年9月21日). 2023年8月20日時点のオリジナルよりアーカイブ 。2023年8月21日 閲覧。
^ Wiggers, Kyle (2023年3月1日). “OpenAI debuts Whisper API for speech-to-text transcription and translation ” (英語). TechCrunch . 2023年7月18日時点のオリジナルよりアーカイブ 。2023年8月21日 閲覧。
^ Yuan, Gong; Khurana, Sameer; Karlinsky, Leonid; Glass, James (2023). “Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers”. Interspeech 2023 . pp. 2798–2802. arXiv :2307.03183 . doi :10.21437/Interspeech.2023-2193
^ “Introducing Whisper ” (英語). openai.com (2022年9月21日). 2023年8月20日時点のオリジナルよりアーカイブ 。2023年8月21日 閲覧。
外部リンク