
こういう要約が、毎朝あなたのメールに届きます。
無料で登録 →何が起きたか:あるエンジニアが、2016~2017年に収録した10エピソード(約10時間)のポッドキャスト音声を、WhisperX(音声認識)とpyannote.audio(話者識別)という2つのオープンソースモデルを使い、Apple Silicon搭載のノートパソコンでローカル処理して文字起こしと話者ラベリングを完了しました。音声はクラウドに送らず、外部APIの課金もなし。
なぜ重要か:2016年当時、このレベルの音声処理は有料クラウドサービスが必須で個人には手が出せない領域でした。それが現在はオープンソースモデルの進化により、1台のノートパソコンで夜間に処理できるようになった。数年間アクセスされていなかった過去のコンテンツが検索可能・閲覧可能な状態に生まれ変わり、追加コストなしに第二の生を得られたとみられます。
注目点:全10エピソード分の処理に約14時間の計算時間がかかり、おおよそ実時間の2倍のペースでした。1エピソード当たり1時間47分~2時間7分の処理時間。ホストの名前の自動修正やマージ処理など簡単な後処理を加えると、各エピソードページに話者別の会話文字起こしと再生タイムスタンプ付きで掲載できます。
まだコメントがありません。最初のコメントを投稿しましょう!
ログインして議論に参加





200以上のソースから厳選したAIニュースを毎日無料でお届けします。
無料で始める登録無料・30秒で完了・いつでも解除できます
毎朝5分、AIの要点だけ。
200媒体以上・Email/LINE/Slack 対応