青空文庫ルビ一括削除ツール(無料)
青空文庫などで公開されている文学作品のテキストファイルには、特有のルビ記号(例:漢字《かんじ》)や注記([#…])が含まれています。
機械学習(AI)の学習用データや、自然言語処理(NLP)のコーパスとしてこれらのテキストを利用する場合、ルビや特殊記号はノイズとなるため除去する前処理(クレンジング)が必須です。
本ツールは、ブラウザ上でテキストを貼り付けるだけで青空文庫形式の特殊タグを一瞬で削除・整形する完全無料ツールです。
このツールでできること
- 青空文庫形式のルビ(《》で囲まれた読み仮名)の自動削除
- [#…]といった注記記号、入力者注のクリーンアップ
- 機械学習・LLM向けのクリーンなプレーンテキストへの一括変換整形
使い方
- 「ツールを開く」ボタンからアプリへアクセスします。
- 編集・整形したい青空文庫形式のテキストファイルをアップロードするか、直接テキストボックスに貼り付けます。
- 「ルビ削除」ボタンを押すと、瞬時に記号が除去されたクリーンなテキストが生成されます。
- 結果をコピー、またはテキストファイルとしてダウンロードします。
こんな人におすすめ
- 自然言語処理、形態素解析などに取り組むAIエンジニア・学生
- 大規模言語モデル(LLM)のファインチューニング用データセット作成者
- 電子書籍(EPUBなど)を作成する際、ルビを取り除きたい方
- テキスト読み上げソフトを利用するために邪魔な記号を消したい方
よくある質問
Q. ルビを残して漢字だけを消すことはできますか?
本ツールは機械学習のプレーンテキスト抽出を主目的としているため、「ルビなどの付加情報を消去する」専用の動作となります。