この記事の目的
YouTubeには動画内の音声をテキスト化したデータがあります。この文字起こしデータをダウンロードする方法として、yt-dlpをご紹介します。
違法アップロード動画のダウンロードなど、法律違反をしないようにご注意ください。
[広告]関連書籍
リンク
リンク
手順
Windows環境でyt-dlpを使う環境を構築するのは大変との情報を見かけたので、環境構築の手間を省くためにDocker上でyt-dlpを使用します。
本記事で使用したyt-dlpのバージョンは2022.03.08.2、Dockerのバージョンは20.10.17です。
作業用フォルダの作成
好きな場所に1つフォルダを作成してください。文字起こしファイルの出力フォルダにします。
本記事では下記の場所にフォルダをつくります。以下、「作業用フォルダ」と呼びます。
C:\Users\[ユーザ名]\Desktop\yt-dlp
文字起こしファイルのダウンロード
docker run --rm -i -v C:\Users\[ユーザ名]\Desktop\yt-dlp:/workdir:rw ^ mikenye/youtube-dl yt-dlp --write-auto-sub --skip-download ^ --sub-lang ja [YouTubeの動画URL]
「docker run ~ mikenye/youtube-dl」はDockerイメージを起動するコマンドです。それに続く「 yt-dlp –write-auto-sub ~ [YouTubeの動画URL]」は、自動生成された日本語の文字起こしファイルをダウンロードするコマンドです。
https://hub.docker.com/r/mikenye/youtube-dl
yt-dlp - ArchWiki
上記コマンドを実行すると、下記ファイルが作業用フォルダにダウンロードされます。
[動画タイトル].ja.vttファイル
文字起こしファイルの利用
vttファイルの中身
vttファイルの中身の一例を下記に示します。文字起こししたテキストがそのまま書かれているわけではありません。
captions: WEBVTT Kind: captions Language: en 00:00:00.160 --> 00:00:03.270 align:start position:0% all<00:00:00.240><c> right</c><00:00:00.640><c> last</c><00:00:01.599><c> apple</c><00:00:02.159><c> story</c><00:00:02.560><c> of</c><00:00:02.639><c> the</c><00:00:02.800><c> day</c>
テキストだけを抽出するには
テキストだけを抽出するにはvtt-to-textなど別のプログラムを利用する必要があります。
Youtube字幕ファイル(.vtt形式)からテキストだけを抜き出す。 - Qiita
昨日の続きです。卒業制作で「気がついたらYoutubeを観て1日が終わってた撲…
vtt-to-text
Converts vtt captions to plain text. Latest version: 1.0.1, last published: 4 years ago. Start using vtt-to-text in your...
下記の記事でvtt-to-textを使用したプログラムを紹介しています。
npmでインストールしたライブラリをブラウザで利用する ~Browserify~
この記事の目的 文字起こしのライブラリvtt-to-textは、Node.jsに付属のnpmを使ってインストールします。 npmでインストールしたライブラリを使ったJavaScriptのプログラムは、そのままではWebブラウザ上で実行するこ...
コメント