Cu toții ne place să descărcăm lucruri de pe Internet și există grămezi de instrumente de manager de descărcare mari pe care le putem folosi pentru a programa descărcările noastre. S-ar putea să fie mai ușor să utilizați un manager de descărcare, dar nu există nici un rău în explorarea instrumentelor care apar deja cu Ubuntu și să îl folosiți pe deplin.
În acest articol vă vom arăta un software construit în Ubuntu pe care îl putem folosi pentru a descărca materiale de pe internet folosind wget. În plus, vă vom arăta cum să programați descărcarea utilizând Cron.
Wget este un pachet software gratuit pentru recuperarea fișierelor utilizând HTTP, HTTPS și FTP, cele mai utilizate protocoale Internet. Este un instrument non-interactiv de linie de comandă, deci poate fi ușor apelat din script-uri, sarcini cron, terminale fără suport pentru X-Windows etc.
Deschideți terminalul și să explorăm modul în care putem folosi wget pentru a descărca chestii de pe net. Sintaxa de bază a descărcării cu wget este următoarea:
wget [opțiune] ... [URL] ...
Această comandă va descărca manualul wget în unitatea locală
wget http://www.gnu.org/software/wget/manual/wget.pdf
Ubuntu vine cu un daemon cron folosit pentru programarea sarcinilor care trebuie executate la un moment dat. Crontab vă permite să specificați acțiunile și orele în care acestea ar trebui executate. Acesta este modul în care ați programa în mod normal o sarcină utilizând instrumentul pentru linia de comandă.
Deschideți o fereastră terminal și introduceți crontab -e.
Fiecare secțiune dintr-un crontab este separată de un spațiu, secțiunea finală având unul sau mai multe spații în el. O intrare cron constă în minute (0-59), oră (0-23, 0 = miezul nopții), zi (1-31), lună (1-12), săptămână (0-6, 0 = duminică). A treia intrare în crontabul de mai sus descarcă wget.pdf la ora 2 dimineața. Prima intrare (0) și a doua intrare (2) înseamnă 2:00. A treia până la a cincea intrare (*) înseamnă orice oră din zi, lună sau săptămână. Ultima intrare este comanda wget pentru a descărca wget.pdf din adresa URL specificată.
Acestea sunt cele de bază pe Wget și cum funcționează Cron. Să luăm o pradă într-un exemplu de viață reală despre cum să programați o descărcare.
Vom descărca Firefox 3.6 la ora 2 AM.Deoarece ISP oferă doar o cantitate limitată de date, trebuie să oprim descărcarea la ora 8 AM. Acesta este aspectul configurației.
Ignorați primele 2 intrări din crontabul de mai sus. A treia și a patra comandă sunt singurele două comenzi de care aveți nevoie. A treia comandă configurează o sarcină care va descărca Firefox la 2 AM:
[cod]
0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=ro
[/cod]
Opțiunile -c indică faptul că wget ar trebui să reia descărcarea existentă dacă nu a fost finalizată.
A patra comandă se va opri la ora 8 dimineața. "Killall" este o comandă unix care ucide procesele după nume.
[cod]
0 8 * * * Killall wget
[/cod]
Wget-ul killall spune Ubuntu să oprească wget de la descărcarea fișierului la 8 AM.
1. Specificarea directorului pentru a descărca un fișier
[cod]
wget -output-document = / home / zainul / Descărcări / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
[/cod]
opțiunea -output-document vă permite să specificați directorul și numele fișierului pe care îl descărcați
2. Descărcarea unui site web
wget este de asemenea capabil să descarce un site Web.
[cod]
wget -m http://www.google.com/profiles/zainul.franciscus
[/cod]
Comanda de mai sus îmi va descărca întreaga pagină web a profilului Google. Opțiunea "-m" îi spune lui wget să descarce o imagine "mirror" a adresei URL specificate.
O altă opțiune importantă este de a spune wget câte linkuri ar trebui să aibă în vedere atunci când descarcă un site web.
[cod]
wget -r -l1 http://www.google.com/profiles/zainul.franciscus
[/cod]
Comanda wget de mai sus utilizează două opțiuni. Prima opțiune '-r' spune Wget să descarce site-ul web specificat recursiv. A doua opțiune "-l1" îi spune lui wget să obțină doar primul nivel de link-uri de pe acel site specificat. Putem seta până la trei niveluri "-12" și "-13".
3. Ignorarea intrării robotului
Web master menține un fișier text numit Robot.txt. "Robot.txt" menține o listă de adrese URL pe care un crawler de pagină web, cum ar fi wget, nu ar trebui să acceseze cu crawlere. Putem spune wget să ignore opțiunea 'Robot.txt' cu '-erobots = off'. Următoarea comandă îi spune lui wget să descarce prima pagină a profilului meu google și să ignore "Robot.txt".
[cod]
wget -erobots = dezactivat http://www.google.com/profiles/zainul.franciscus
[/cod]
O altă opțiune utilă este -U. Această opțiune va masca wget ca browser. Rețineți că mascarea unei aplicații ca o altă aplicație poate încălca termenul și serviciul unui furnizor de servicii web.
[cod]
wget -erobots = oprit -U Mozilla http://www.google.com/profiles/zainul.franciscus
[/cod]
Wget este un pachet foarte vechi de școală, încă hackable GNU pe care îl putem folosi pentru a descărca fișiere. Wget este un instrument interactiv de linie de comandă, ceea ce înseamnă că îl putem lăsa să ruleze pe computerul nostru în fundal fără a fi nevoie să pornească nici o aplicație. Consultați pagina man wget
[cod]
$ man wget
[/cod]
pentru a înțelege alte opțiuni pe care le putem folosi cu wget.
Wget Manual
Cum se combină două fișiere descărcate când wget nu reușește la jumătatea drumului
Linux QuickTip: Descărcare și descărcare într-un singur pas