admin / 03.12.2017

Справочник по командам Wget (скачивание файла из Интернет) | Форум по информационной безопасности

GNU Wget

Introduction to GNU Wget

GNU Wget is a free software package for retrieving files using HTTP, HTTPS, FTP and FTPS the most widely-used Internet protocols. It is a non-interactive commandline tool, so it may easily be called from scripts, jobs, terminals without X-Windows support, etc.

GNU Wget has many features to make retrieving large files or mirroring entire web or FTP sites easy, including:

  • Can resume aborted downloads, using and
  • Can use filename wild cards and recursively mirror directories
  • NLS-based message files for many different languages
  • Optionally converts absolute links in downloaded documents to relative, so that downloaded documents may link to each other locally
  • Runs on most UNIX-like operating systems as well as Microsoft Windows
  • Supports HTTP proxies
  • Supports HTTP cookies
  • Supports persistent HTTP connections
  • Unattended / background operation
  • Uses local file timestamps to determine whether documents need to be re-downloaded when mirroring
  • GNU Wget is distributed under the GNU General Public License.

Downloading GNU Wget

The source code for GNU Wget can be found on here or on our mirrors.
For more download options, see the FAQ.

Documentation

GNU Wget documentation can be found here.
For manuals of other GNU packages, please see www.gnu.org.

Additional Information

Currently GNU Wget2 is being developed.
Please help us if you can with testing, docs, organization, development, … see you at Wget2 collaboration site

Maintainer

GNU Wget is currently being maintained by Tim Rühsen, Darshit Shah and Giuseppe Scrivano.
The original author of GNU Wget is Hrvoje Nikšić.
Please do not directly contact either of these individuals with bug reports, or requests for help with Wget: that is what the mailing list is for; please use it instead.

Donators

We thank the TYPO3 & Magento partner AOE media for donating to the wget project.

BACK TO TOP


wget — ПОВЕЛИТЕЛЬ ЗАКАЧЕК
(ЗАГРУЗКА ФАЙЛОВ И САЙТОВ ИЗ ИНТЕРНЕТА В GNU/LINUX)

О любви wget так много песен спето,
Я спою, тебе спою, ещё одну…

Романс из к/ф «Три друга»

Задача: хочется Teleport Pro и FlashGet для Линукс, качать сайты и файлы.

Решение: откройте для себя wget — это всё в одном флаконе и даже больше.

Часто ищут прежде всего множество графических программ с несколькими кнопками — но есть одна утилита, способная заменить их и предоставляющая возможности, которых больше нигде нет.

Это wget и всё, что на нём основано. Освоение этой утилиты требует некоторых усилий и хотя бы беглого прочтения руководства, но взамен вы получаете мощную утилиту, которая будет экономить ваше время и трафик.

Стоит сказать, что man wget при первом взгляде производит сокрушительное впечатление, однако потом понимаешь, что далеко не все опции нужны при повседневном использовании. Ниже приводятся наиболее часто используемые мною опции.

Использование а-ля «FlashGet for Linux»

Нужно просто скачать файл и/или продолжить закачку, которая оборвалась. Это очень и очень легко сделать, написав в терминале несколько строчек.

Просто скачать файл wget-ом:

$ wget ftp://vasya.pupkin.com/film.avi

Ещё вариант: часть файла скачана, закачка оборвалась.

Для продолжения закачки файла пишем:

$ wget -c ftp://vasya.pupkin.com/film.avi или $ wget —continue ftp://vasya.pupkin.com/film.avi

Вместо -с можно написать —continue, так как каждый ключ имеет короткую и длинную формы: длинные ключи проще запомнить, но дольше писать. Можно легко смешивать различные формы написания.

Чтобы выкачать файлы из списка, содержащего прямые ссылки:

$ wget -i pupkinlist или $ wget —input-file=pupkinlist

Здесь указывается только файл, в котором содержатся ссылки. Файл может так же быть html-страницей, в которой есть ссылки.

Windows. Установка wget в Windows XP/7/8/8.1/10

Они будут выкачаны указанной выше командой.

Использование а-ля «Teleport Pro for Linux»

При скачивании веб-сайтов возможностей больше, и поэтому требуется больше ключей. Опять-таки, запоминать их все не обязательно, можно сделать скрипт (а лучше несколько — под разные случаи) и вызывать их.

Так вот, если имеется веб-сайт, и хотелось бы иметь его локальную копию на компьютере, чтобы, отключившись от сети, можно было не торопясь его почитать.

Зеркалирование сайтов на локальную машину:

$ wget -m http://www.vasyapupkin.com/

Замечу, что при этом ссылки останутся абсолютными — то есть, будут указывать на Интернет-адреса, и удобно просматривать на локальной машине будет затруднительно.

Копирование сайта для локального просмотра:

$ wget -r -l0 -np -k http://www.vasyapupkin.com/

При этом будет включена рекурсивная выгрузка (ключ -r, —recursive), то есть не только файлы с главной страницы, но и все остальные, на которые ведут ссылки (ключ -l0 бесконечная вложенность ссылок).

Имена ссылок будут переконвертированы в локальные для удобства просмотра (ключ -k). Так же при помощи ключа -np (no-parrent) можно запретить wget подниматься выше начального адреса при рекурсивной загрузке, то есть если вы копируете http://home.vasyapupkin.com/ то по ссылкам с основного сайта http://www.vasyapupkin.com/ скопированы не будут.

Несколько полезных ключей

Включение и исключение файлов при загрузке:

-A acclist или —accept acclist -R rejlist или —reject rejlist

Задаёт разделяемые запятыми шаблоны имён файлов, которые следует загружать (acclist) или игнорировать (rejlist).

-k или —convert-links

Превращает абсолютные ссылки (типа http://www…) в относительные (типа file///home/vasya/www/index.html) для удобства локального просмотра. Чтобы локально в броузере просмотреть скачанный сайт, открываете файл index.html в броузере и бродите по ссылкам точно так же, как если бы вы были подключены к интернету.

-H или —span-hosts

Разрешает wget скачивать данные с любого адреса, на который есть ссылка в запрашиваемом документе.

-p или —page-requisites

Загружает все файлы, которые нужны для отображения страниц html. Например: рисунки, звук и каскадные стили. После завершения загрузки конвертирует ссылки в документе для просмотра в автономном режиме. Это касается не только видимых ссылок на другие документы, а ссылок на все внешние локальные файлы.

siteget — простой скрипт для скачивания сайтов

Если вам надоели все эти премудрости с ключами wget и нужно просто скачать сайт, то siteget вам определённо понравится. Это довольно простой скрипт с необходимыми параметрами для загрузки сайта.

Загрузить скрипт можно отсюда. После закачки на компьютер имеет смысл скопировать его в режиме суперпользователя в одну из директорий, прописанных в переменной $PATH: операционная система автоматически просматривает их в поисках исполняемых файлов. Например, в директорию /user/local/bin:

# cp {директория, где находится скрипт}/siteget /user/local/bin/siteget

Скрипту также необходимо присвоить атрибут исполняемого файла:

# chmod a+x /usr/local/bin/siteget

Использование siteget очень простое:

$ siteget http://www.vasyapupkin.com/

Большое спасибо за ссылку jetxee, который писал об этом здесь.

Михаил Конник

Опубликовано с ведома и согласия автора
(в редакции сайта KБ МДА)
Первоначально размещено в блоге автора «Записки дебианщика»
по адресу: http://mydebianblog.blogspot.com/2007/09/wget.html


© Кафедра библеистики МДА, 2008.
Последнее обновление:
Адрес в интернете: http://www.bible-mda.ru/soft/wget/wget.html


Просто скачать файл wget-ом:

wget ftp://vasya.pupkin.com/film.avi

Для продолжения оборвавшейся закачки пишем:

wget -c ftp://vasya.pupkin.com/film.avi

или

wget —continue ftp://vasya.pupkin.com/film.avi

Как и в других программах, ключи имеют короткую и длинную формы, и вместо можно написать . Длинные ключи проще запомнить, но дольше писать. Можно легко смешивать различные формы написания.

Чтобы выкачать файлы из списка, содержащего прямые ссылки:

wget -i pupkinlist.txt

или

wget —input-file=pupkinlist.txt

Здесь указывается только файл, в котором содержатся ссылки. Файл может так же быть -страницей, в которой есть ссылки. Они будут выкачаны указанной выше командой.

Использование а-ля «Teleport Pro for Linux».

При скачивании веб-сайтов возможностей больше, и поэтому требуется больше ключей.

Опять-таки, запоминать их все не обязательно, можно сделать скрипт (а лучше несколько — под разные случаи) и вызывать их.

Так вот, если имеется веб-сайт, и хотелось бы иметь его локальную копию на компьютере, чтобы, отключившись от сети, можно было не торопясь его почитать.

Зеркалирование сайтов на локальную машину:

wget -m http://www.vasyapupkin.com/

эквивалентно , эти опции описаны ниже.

При этом ссылки останутся абсолютными — то есть, будут указывать на Интернет-адреса, и удобно просматривать на локальной машине будет затруднительно.

Копирование сайта для локального просмотра (с заменой интернет-ссылок на локальные адреса скачанных страниц):

wget -r -l0 -k http://www.vasyapupkin.com/

При этом будет включена рекурсивная выгрузка (ключ -r, –recursive),

В wget имеется большое количество полезных опций — побольше, чем у Teleport'а флажков. Будучи завёрнутым в скрипт, например, и положенным на видное место (указанное в ), имеем удобство применения и богатство настроек.

, — не подниматься выше начального адреса при рекурсивной загрузке.

, — включить рекурсивный просмотр каталогов и подкаталогов на удалённом сервере.

, — определить максимальную глубину рекурсии равной depth при просмотре каталогов на удалённом сервере. По умолчанию depth=5.

, — не переходить в родительский каталог во время поиска файлов. Это очень полезное свойство, поскольку оно гарантирует, что будут копироваться только те файлы, которые расположены ниже определённой иерархии.

, , , — список имен файлов, разделенных запятыми, которые следует (accept) или не следует (reject) загружать. Разрешается задание имен файлов по маске.

Wget для Windows. Установка и использование.

, — превратить абсолютные ссылки в документе в относительные ссылки. Преобразованию подвергнутся только те ссылки, которые указывают на реально загруженные страницы; остальные не будут преобразовываться. Заметим, что лишь в конце работы wget сможет узнать какие страницы были реально загружены. Следовательно, лишь в конце работы wget будет выполняться окончательное преобразование.

, — указать имя пользователя и пароль на -сервере.

, — разрешает посещать любые сервера, на которые есть ссылка.

, — загружать все файлы, которые нужны для отображения страниц . Например: рисунки, звук, каскадные стили (). По умолчанию такие файлы не загружаются. Параметры и , указанные вместе могут помочь, но т.к. wget не различает внешние и внутренние документы, то нет гарантии, что загрузится все требуемое.

Ссылки

Информация о программе

Wget это консольная утилита для загрузки файлов с использованием HTTP, FTP протоколов и прокси-соединения.

wget для Windows

Программа позволяет копировать простые html сайты с сохранением структуры каталогов. Позволяет находить и обрабатывать данные robots.txt, умеет конвертировать ссылки для последующего оффлайн доступа. Содержит инструмент по сравнению заголовков файлов для загрузки новых версий и создания зеркальных копий.

Приложение поддерживает возобновление работы при возникновении ошибки или обрыве связи, рекурсивную скачку с указанием маски имени и глубины перехода по ссылкам. Умеет авторизоваться на FTP сервере, подключаться в фоновом режиме к защищенным https сайтам.

Программа способна вести подробный лог, является оптимальным средством для создания зеркал удаленных хранилищ или веб-ресурсов, поточного копирования данных с FTP серверов.

Скачать бесплатно полную русскую версию Wget с официального сайта без регистрации и смс.

Лицензия: Бесплатная
Разработчик: gnuwin32
Язык: украинский, русский, английский

Системные требования

  • Поддерживаемые ОС: Windows XP, 7, 10, 8, Vista, 8.1
  • Разрядность: 32 bit, x86, 64 bit

Wget — консольный загрузчик для скачивания сайтов и его использование в Windows

wget — консольная утилита для скачивания файлов/сайтов, умеет выкачивать файлы рекурсивно, следуя по ссылкам автоматически.

Команда Описание
wget http://example.com/file.zip скачивание файла file.zip в текущую директорию
wget -P /path/to/save http://example.com/file.zip скачивание файла file.zip в директорию /path/to/save
wget -c http://example.com/file.zip докачивание файла file.zip в случаи обрыва
wget -O arch.zip http://example.com/file.zip скачивание файла file.zip и сохранение под именем arch.zip
wget -i files.txt скачивание файлов из списка в files.txt
wget —tries=10 http://example.com/file.zip количество попыток на скачивание
wget -Q5m -i http://example.com/ квота на максимальный размер скачанных файлов, квота действует только при рекурсивном скачивании (-r)
wget —save-cookies cookies.txt —post-data ‘username=proft&password=1’ http://example.com/auth.php идентификация на сервере с сохранением кук для последующего доступа
wget —user-agent=»Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5″ http://example.com/ указание User Agent
echo ‘wget http://example.com/file.zip’ | at 12:00 скачать http://example.com/file.zip в 12:00 в текущую директорию
wget ftp://example.com/dir/*.zip скачивание всех файлов по шаблону
wget http://example.com/dir/file{1..10}.zip скачивание всех файлов по шаблону
wget -S http://example.com/ вывод заголовков HTTP серверов и ответов FTP серверов
wget —spider -i urls.txt проверка ссылок в файле на доступность
wget -b http://example.com/file.zip скачивание файла в фоне, лог пишется в wget.log, wget.log.1 и т.д.
export http_proxy=http://proxy.com:3128/;wget http://example.com/file.zip скачивание файла *file.zip* через прокси
wget -m -w 2 http://example.com/ зеркалирование сайта с сохранением абсолютных ссылок и ожиданием 2-х секунд между запросами
wget —limit-rate=200k http://example.com/file.zip ограничение скорости скачивания
wget -R bmp http://example.com/ не скачивать bmp файлы
wget -A png,jpg http://example.com/ скачивать только файлы png и jpg

Пример использования для скачивания документации Django:

  • — ходим по ссылкам (рекурсивное скачивание)
  • — преобразовываем ссылки к локальному виду
  • — скачивание ресурсов необходимых для отображения html-страницы (стили, картинки и т.д.)
  • — глубина скачивания, 0 — бесконечная вложенность ссылок
  • — не перезаписывать существующие файлы
  • — не подниматься выше начального адреса при рекурсивной загрузке

Часто используемые wget параметры можно вынести в ~/.wgetrc.

curl — консольная утилита для передачи данных используя URL-синтаксис, поддерживаются протоколы DICT, FILE, FTP, FTPS, Gopher, HTTP, HTTPS, IMAP, IMAPS, LDAP, LDAPS, POP3, POP3S, RTMP, RTSP, SCP, SFTP, SMTP, SMTPS, Telnet и TFTP.

Команда Описание
curl http://proft.me получаем содержания главной страницы
curl -o index.html http://proft.me получаем содержания главной страницы в файл index.html
curl -L http://example.com при получении содержимого страницы следовать по редиректам (если такие есть)
curl -u username:password http://example.com/login/ получение страницы скрытой за Basic HTTP Authentication
curl -x proxy.com:3128 http://proft.me получение страницы используя прокси
curl -I proft.me получаем http-заголовки с сайта
curl -H ‘Host: google.ru’ http://proft.me подменить домен при обращении к серверу (передача своего заголовка)
curl —request POST «http://example.com/form/» —data «field1=value1&field2=value2» передача данных POST-запросом
curl -X POST «http://example.com/form/» —data «field1=value1&field2=value2» передача данных POST-запросом
curl -X POST -H «Content-Type: application/json» -d ‘»title»:»Commando»,»year»:»1985″‘ http://example.com/api/movies/ передача данных POST-запросом, данные в виде JSON
curl —request PUT «http://example.com/api/movie/1/» —data «title=DjangoUnchained» передача данных PUT-запросом
curl -F uploadfiled=@file.zip -F submit=OK http://example.com/upload/ загрузка файла file.zip в форму (multipart/form-data)
curl -u username:password -O ftp://example.com/file.zip скачать файл с FTP
curl -u username:password -T file.zip ftp://example.com/ закачать файл по FTP
curl —cookie «login=proft» http://example.com/login/ установить кукис
curl —cookie-jar cookies.txt http://example.com сохранение кукисов в файл
curl —cookie cookies.txt http://example.com/login/ использование сохраненных кукисов

Дополнительное чтиво

blog comments powered by

.

FILED UNDER : IT

Submit a Comment

Must be required * marked fields.

:*
:*