2016年に録音したポッドキャストの音声を、オープンソースAIを使って自分のノートパソコンで文字起こしできるようになった——2016年当時は有料クラウドサービスしかなかった作業が、いまは無料で完全にローカルで実行できる。

Hacker News4日前3分で読める

こういう要約が、毎朝あなたのメールに届きます。

3つのポイント

1
何が起きたか：あるエンジニアが、2016～2017年に収録した10エピソード（約10時間）のポッドキャスト音声を、WhisperX（音声認識）とpyannote.audio（話者識別）という2つのオープンソースモデルを使い、Apple Silicon搭載のノートパソコンでローカル処理して文字起こしと話者ラベリングを完了しました。音声はクラウドに送らず、外部APIの課金もなし。
2
なぜ重要か：2016年当時、このレベルの音声処理は有料クラウドサービスが必須で個人には手が出せない領域でした。それが現在はオープンソースモデルの進化により、1台のノートパソコンで夜間に処理できるようになった。数年間アクセスされていなかった過去のコンテンツが検索可能・閲覧可能な状態に生まれ変わり、追加コストなしに第二の生を得られたとみられます。
3
注目点：全10エピソード分の処理に約14時間の計算時間がかかり、おおよそ実時間の2倍のペースでした。1エピソード当たり1時間47分～2時間7分の処理時間。ホストの名前の自動修正やマージ処理など簡単な後処理を加えると、各エピソードページに話者別の会話文字起こしと再生タイムスタンプ付きで掲載できます。