Вдруг кому понадобится

Aug 03, 2017 11:11

Массовое преобразование файлов html в txt. Все тэги и скрипты при этом игнорируются. Нашел здесь. Как скачать много html файлов, все знают. А вот для дальнейшей работы с текстами может быть удобнее, чтобы эти тексты были в формате txt. Мне например, понадобилось, чтобы сделать из множества маленьких файликов html, книгу в формате fb2. Нужно, чтобы в системе был установлен браузер lynx.
#!/bin/sh
# h2t, convert all htm and html files of a directory to text

for file in `ls *.htm`
do
new=`basename $file htm`
lynx -dump $file > ${new}txt
done
#####
for file in `ls *.html`
do
new=`basename $file html`
lynx -dump $file > ${new}txt
done
Вот этот скрипт сделал все меньше, чем за минуту. Скопировать текст в любимый текстовый редактор, сохранить без расширения, под любым названием. Я сохранил как "html-convert". Потом даем ему права исполняемого файла, копируем в папку с файлами html и запускаем в терминале.
$ cd ~/Folder-with-your-htmls
$ ./html-convert

компьютерное, linux, pro memoria

Previous post Next post
Up