воскресенье, 26 октября 2008 г.

Архив блога / blogarchive

Ubuntu Beginners / Новичкам в Ubuntu: Архив блога / blogarchive

Расскажу, как скачать сайт со всеми его аттрибутами для оффлайнового просмотра, я имею в виду стили, изображения, оптимизированную для локала навигацию и тп. Рассказываю.

На форуме попросили сделать архив моего блога для удобного просмотра в оффлайне. Бился я с wgeto-ом, curl-ом и ничего у меня не получалось. Взял я тогда httrack, установил его и запустил. Поотвечал на вопросы и нажал заветное Enter. А дальше мой блог скачался за три минуты со всеми своими причиндалами с внешних url-в. Во-первых, стили, которые живут на отдельном поддомене блоггера. Во-вторых, картинки, которые живут то другом отдельном поддомене блоггера, и, в-третьих, картинки, которые я вначале своего блоггинга вывешивал вообще на другой сайт.

Как же сделать оффлайн архив сайта? Сначала установите httrack. Потом просто запустите его в терминале. Он начнет задавать вопросы.

  • Имя проекта. В моем случае libc6
  • Директория, в которую будет зеркалироваться ресурс. У меня - ~/websites. Это значит что файлы зеркального проекта будут уложены в ~/websites/libc6/
  • URL адрес ресурса, который мы будем закачивать. Здесь я пишу адрес блога.
  • Дальше я выбираю меню номер 2 - помогать нам визардом.
  • Визард спрашивает Proxy, которого у меня нет - энтер; что запрещать а что разрешать по маскам - я разрешаю картинки. Если чтото запретить - то вмето + ставить -; дополнительные опции - не хочу опций, энтер.
После этого httrack выдаст нам команду (которую можно сходу использовать в дальнейшем без участия визарда, например в скриптах) и приступит к скачиванию ресурса с указанными разрешениями. Через три минуты скачивание готово. Время, естественно, зависит от общего размера ресурса и скорости интернет канала. Ну а вот что получается после этого, вот такая структурка, в которой есть и посты, и коменты, и картинки, и архивы самого блоггера: PS (23.10.08): с некоторого времени моя формула для скачивания блога с *blogspot.com не работает. Проблема сайтов на базе blogger.com в том, что стили, джаваскрипты и изображение для конкретного сайта хранятся не по тому же адресу, который у сайта, а на других, внешних доменах. Иначе бы не было проблем при скачивании *.blogspot.com блога простым wget-ом с рекусрсией. Httrack же, при использовании приведенной выше команды, зависает буквально в самом начале работы. В связи с чем проведен анализ интернета и найдена новая формула, созданная на основе заметки Дмитрия Конищева Создание зеркала сайта. Новая формула выглядит так:
httrack "http://libc6.blogspot.com/" "+*.css" "+*.jpg" "+*.jpeg" "+*.png" "+*.gif" "+.ico" "-*666*" "-*BlogBacklinkURL*" -v -s0
Это работает для блога libc6.blogspot.com. Надеюсь, и для остальных блогов на платформе блоггера она тоже будет работать.

Написано libc6 в 14:39

16 Комментарии:

  • Большое спасибо за статью, очень полезно. Часто бывает нужно.

    By Anonymous Starlite, at 25 Май, 2007 17:41

  • Да пожалуйста :) Я вообще думал, никто не откоментит :)

    Уже посмотрел ваш блог и уже не согласен с вики для новичков. Щас пойду напишу почему.

    By Blogger libc6, at 25 Май, 2007 17:53

  • Присоединяюсь к благодарственным постам. Когда-то я httrack пробовал, но не проникся. Теперь снова попробую скачать блог им, а то wget почему-то не даёт нужный результат...

    By Blogger virens, at 26 Май, 2007 05:38

  • Пользовался раньше в винде этой приблудой, шикарная вещь.
    К ней ещё морда гуевая есть, webttrack завётся.

    By Anonymous Анонимный, at 27 Май, 2007 18:49

  • Да, есть гуевая-веб-интерфейсная морда. И в Убунте ее даже настраивать не надо. webhttrack, если быть точным. Работает отлично, согласен :)

    By Blogger libc6, at 29 Май, 2007 13:19

  • "уж тем более не по причине так называемого "lytdybr"."
    А почему слово "дневник" было так написано?

    By Blogger _Andrey_, at 07 Август, 2007 16:56

  • Мне больше нравится wget:
    wget -np -r http://some.domain/come/path/to/requested/dir/
    Ключи:
    -np - не качать файлы из родительских каталогов
    -r - качать рекурсивно.
    Еще можно добавить:
    -l X - глубина
    -c - докачивать (полезно при разрыве соединения)
    Есть еще флаги, которые заставят wget преобразовать линки в локальные.

    By Blogger _Andrey_, at 07 Август, 2007 17:10

  • >>А почему слово "дневник" было так написано?
    Так исторически сложилось в жж (livejournal). Я много в жж тусил раньше.

    >>Мне больше нравится wget: wget -np -r
    Хм. Лучше проверить на практике. проверял?

    By Blogger libc6, at 07 Август, 2007 17:23

  • Проверял что, wget? Конечно проверял ;)
    Если речь об описанной вами утилите, то даже не видел. А wget для меня удобнее потому, что он консольный, всегда есть, очень гибок, ...

    By Blogger _Andrey_, at 07 Август, 2007 23:27

  • Не хочу показаться упрямым бараном, но все-таки. Я прав, а вы нет :)

    1) Не поленитесь и скачайте этот блог wget-ом так, как предложили вы (или с любыми другими опциями), и потом httrack-ом так, как предолжил я. И потом проверьте выход. Результаты будут на лицо и совершенно разные. Httrack дает всеобъемлющий контент. wget дает даунлоад с конкретно названного url-а без внешних ресурсов.

    2) Вы наверное не внимательно читали. Я не писал никаких утилит. httrack - древняя консольная утилита, которая есть в репах к любому линуксу. Еще к ней есть гуи морда wevhttrack. Рекомендую.

    3) И последнее. Перед тем как писать статью, я тщательно все проверил. Серьезно :)

    By Blogger libc6, at 08 Август, 2007 14:56

  • Пардон, опечатка. гуи морда webhttrack

    By Blogger libc6, at 08 Август, 2007 14:57

  • Ну каждому свой инструмент ;)
    Вот вырезка из мана:
    "Wget can follow links in HTML and XHTML pages and create local versions of remote web sites, fully recreating the directory structure of the original site. This is sometimes referred to as recursive downloading.''While doing that, Wget respects the Robot Exclusion Standard (/robots.txt). Wget can be instructed to convert the links in downloaded HTML files to the local files for offline viewing."

    Качать ваш блог не буду, трафик у меня не самый дешевый.
    Поясните, чем ваш блог отличается от других сайтов?
    Если нужно скачать и внешние линки, то wget это сделает без проблем. Да еще и конвертнет их так, что бы локально можно было смотреть ;)

    By Blogger _Andrey_, at 09 Август, 2007 02:54

  • Ссылка на утилиту для бекапа блога на данном блоггер-овском движке. Может кому-то пригодится.

    By Blogger libc6, at 29 Август, 2007 09:28

  • помогите пожалуйста кто может.
    Поставил Ubuntu, но никак не могу настроить сеть. Ввел АйПи, Гетевей но не могу увидеть сеть, и интернета нет.
    Сеть состоит из 10 Винд компов.

    By Blogger mabar, at 17 Сентябрь, 2007 11:04

  • Приветствую!

    > Качать придется браузером через 30 секунд после начала сессии, по принципу файлообменников. Это потому, что у меня нормального хостинга нету

    А почему бы не залить на pages.google.com?
    Offline-версия блога — хорошая штука. Раньше хотел с помощью сервисов сделать конвертацию постов в pdf. Присмотрюсь к вашему способу.

    By Blogger Dr.AKULAvich, at 10 Июнь, 2008 18:01

  • Отписался в мыло.

    By Blogger libc6, at 10 Июнь, 2008 21:28

Комментариев нет: