Wget как скачать сайт
Очень нередко возникает необходимость в копировании постороннего веб-сайта. В то время, как копирование с помощью интегрированной функции браузера "сохранить как", не работает подабающим образом, можно пользоваться програмкой wget.
В данной для нас статье будут рассмотрены основные команды wget, на примере будет показано, как скачать страничку с помощью wget для локального просмотра, а так же, как скачать https сайт.
- Скачивание страничек по списку из файла
- Как задать папку для скачивания
- Рекурсивное скачка подкаталогов
- Выкачивание всего сайта
- Скачивание странички с локальным сохранением клиентских файлов
- Скачивание http-страниц
- Резюме
В данной для нас статье я не буду разглядывать установку wget на комп. Я воспользуюсь сборкой Open Server, в которой эта программа уже включена. Open Server – это сборка локального веб-сервера. Поэтому, ежели вы не программируете на php, то смысла устанавливать Open Server не много. Для вас наилучший вариант – это отдельная установка wget.
Wget – это консольная программа для загрузки файлов. Это программа кое-чем похожа на CURL, но, они решают совершенно различные задачки. Wget дозволяет закачивать странички веб-сайта, вкупе с полным содержанием странички (css, js, картинки) к для себя на комп. Что дозволяет открыть этот веб-сайт у себя, без веба, полностью не искажая его начальное отображение. Так же, эта программа включает в для себя возможность рекурсивного скачки страничек, что дозволит с помощью wget скачать весь веб-сайт целиком, и показывать его локально.
Скачивание всех страничек по списку из файла
, где YOURFILE – путь к файлу, с URL-адресами
Например, у меня есть файл :
Теперь, запустив команду (у меня links.txt находится в той папке, относительно которой запущена консоль)
И в итоге получим 3 файла, как и было в списке:
Скачивание в указанную папку
Для того, чтоб скачать в подходящую нам папку, необходимо выполнить:
, где /path – папка для сохранения, http://example.com – url-сайта, который необходимо скачать
– путь сохранения (указывается )
Например, скачаем содержимое главной странички http://badcode.ru в папку files
Выполним:
И wget создаст папку с заглавием , и куда сохранит содержимое нашего сайта
Рекурсивное скачка каталога и вложенных подкаталогов
Проверим это на примере скачки всех статей 1-го из тегов:
Выполнив:
Каждая из опций значит:
– рекурсивно открывает новейшие отысканные страницы
– глубина рекурсии , что означает, что очень рекурсивно будет открыто 5 ссылок
– конвертирование ссылок на локальные, загружая файлы (css, js, картинки) к для себя в папку
– скачать в папку все нужные файлы для отображения странички без интернета
Выполнив:
Получим итог в виде всех скачанных статей, которые без заморочек можно читать без интернета:
Скачивание одной странички со всеми файлами
Эта команда будет симбиозом того, что мы уже рассмотрели.
А ключи и нам уже известны: это означает, что мы говорим wget скачать все файлы, и проставить пути так, чтоб можно было открыть эти странички локально, без интернета.
Скачивание https-страницы
Для того, чтоб скачать https-страницы, просто необходимо добавить опцию
На прошедшем примере, что будет иметь вид:
Цель данной статьи – показать, с какой простотой и удобством можно воспользоваться Wget. Я постарался ответить на то, как сохранять странички, либо даже целые веб-сайты к для себя локально, и просматривать их без веба. В данной статье были описаны основные команды Wget, ежели вы желаете наиболее продвинутого использования сиим инвентарем, то данной инфы будет недостаточно.
Ранее, для того, чтоб скопировать какую-то страничку, я прибегал к использованию посторониих сервисов, которые, часто, являются обёрткой над Wget. Поэтому, исследовав основные команды Wget, необходимость в остальных сервисах отпадает сама собой.
К слову, моя "история фриланса", как раз и началась, с того, что я копировал лендинги, и здесь мне чрезвычайно помогали познания, связанные с Wget.
Как скопировать веб-сайт на комп со всеми папками и изображениями?
Сегодня расскажу как скопировать веб-сайт на собственный комп для предстоящей работы с веб-сайтом в оффлайн режиме. Таковой вопросец задал мне один из моих клиентов, ему приглянулась одна веб страница, для себя он захотел такую же. Очень долго я ему разъяснял как сохранить эту страничку для себя на комп, чтоб позже поменять все тексты на свои и залить на собственный домен, но он категорически не мог меня осознать. Было принято решение написать инструкцию.
И так, что мы имеем: у нас есть веб веб-сайт, который необходимо выкачать на комп, в моем случае это вот таковая страничка http://www.mokselle.ru/trainingopbox/. Как вы осознаете надавить в браузере «Сохранить как» не получится, по другому я не писал бы эту статью. Все не так просто, но в то же время и не тяжело.
И так для того чтоб скачать веб-сайт вполне на собственный комп, для вас пригодится программа Wget, скачать её можно по прямой ссылке с моего пасмурного хранилища
Скачать Wget 1.18(размер файла – 3,3 Mb)
Создайте в папке C:Program Files каталог Wget и разархивируйте содержимое архива в неё
После разархивирования для вас необходимо настроить переменные среды. Для этого откройте «Свойства компьютера» — «Дополнительные характеристики системы»
нажмите на клавишу «Переменные среды»
В открывшемся окне выберите пункт Path и нажмите на клавишу «Изменить»
Добавьте новейший параметр, указав в нем полный путь к разархивированной програмке Wget, в моем случае это — C:Program Fileswget
Если у вас Windows 8 либо Windows 7, то этот параметр необходимо добавить в самый конец через символ ;
После внесения переменной среды, нажимайте «ОК»,и проверьте все ли верно сделали. Для проверки, откройте командную строчку (Win+R и введите команду cmd), в командной строке введите wget и нажмите Enter, ежели вы видите схожую картину, означает все вы сделали правильно
Копирование веб-сайта на комп с помощью Wget
Вот мы и подошли к самому процессу сохранения веб-сайта полностью на комп. Для того, чтоб скачать веб-сайт полностью, необходимо в командной строке ввести следующее:
Для http
wget –page-requisites -r -l 10 http://www.mokselle.ru/trainingopbox/
Для https
wget -r -k -l 10 -p -E -nc —no-check-certificate https://sidemob.com
Расшифровка:
—page-requisites — ключ для скачки всех реквизитов (картинки, стили, джава скрипты, шрифты и т.д.)
-r — ключ указывающий на то, что необходимо скачать все странички, а не лишь главную
-l 10 — ключ указывающий уровень вложенности страниц
после всех ключей указывается ссылка на веб-сайт, который необходимо скачать. Нажимаем Enter и ждем завершение процедуры загрузки
После завершения процедуры скачки веб-сайта, откройте в проводнике папку со собственной учетной записью, у меня она находиться по вот такому пути:
В папке с учетной записью возникла папка с заглавием веб-сайта, который я лишь что скачал, захожу в неё и запускаю файл index.html
И вуаля! Раскрывается полная копия того веб-сайта, который мы желали скачать
Что делать с скачанным веб-сайтом, вопросец иной. Ежели вы его скачали для предстоящего чтения во время отсутствия веба, это одно дело. Ежели вы собираетесь воровать какую то часть веб-сайта, не запамятовывайте, создатели веб-сайта издержали на него много средств и времени, кто то ночи не досыпал, а кто то хлеба не доедал… Не воруйте в общем.