背景#
数日前、100G のデータセットをオンラインでダウンロードしました。数万のファイルが含まれています。しかし、圧縮ファイルを作成した人が macOS を使用していたため、解凍すると、各ファイルに._
で始まるコピーがあることがわかりました。例えば、sub_12345
というファイルがあると、対応する._sub_12345
があります。このコピーは役に立ちませんが、Windows では見えます。見た目が悪いだけでなく、後続のプログラムがファイルを読み込むのにも影響を与えます。
python スクリプトで一括削除#
os.walk
モジュールを使用して処理を行います:
import os
data_dir = './test/'
for root, subdir, filename in os.walk(data_dir, topdown=False):
if filename.startswith('._'):
os.remove(os.path.join(root, filename))
上記がスクリプトです。非常に簡単です。os.walk
を使用することで、フォルダを再帰的に読み取ることができ、タスクがはるかに簡単になります。