Linux curl使用简单介绍

http://www.linuxidc.com/Linux/2008-01/10891.htm

--------------------------------------------------

Linux curl使用简单介绍
[日期：2008-01-29]    来源：Linux公社作者：notech

Curl是Linux下一个很强大的http命令行工具，其功能十分强大。

1) 二话不说，先从这里开始吧！

$ curl http://www.linuxidc.com

回车之后，www.linuxidc.com 的html就稀里哗啦地显示在屏幕上了    ~

2) 嗯，要想把读过来页面存下来，是不是要这样呢？

$ curl http://www.linuxidc.com > page.html

当然可以，但不用这么麻烦的！

用curl的内置option就好，存下http的结果，用这个option: -o

$ curl -o page.html http://www.linuxidc.com

这样，你就可以看到屏幕上出现一个下载页面进度指示。等进展到100%，自然就 OK咯

3) 什么什么？！访问不到？肯定是你的proxy没有设定了。

使用curl的时候，用这个option可以指定http访问所使用的proxy服务器及其端口： -x

$ curl -x 123.45.67.89:1080 -o page.html http://www.linuxidc.com

4) 访问有些网站的时候比较讨厌，他使用cookie来记录session信息。

像IE/NN这样的浏览器，当然可以轻易处理cookie信息，但我们的curl呢？.....

我们来学习这个option: -D <— 这个是把http的response里面的cookie信息存到一个特别的文件中去

$ curl -x 123.45.67.89:1080 -o page.html -D cookie0001.txt http://www.linuxidc.com

这样，当页面被存到page.html的同时，cookie信息也被存到了cookie0001.txt里面了

5）那么，下一次访问的时候，如何继续使用上次留下的cookie信息呢？要知道，很多网站都是靠监视你的cookie信息，来判断你是不是不按规矩访问他们的网站的。

这次我们使用这个option来把上次的cookie信息追加到http request里面去： -b

$ curl -x 123.45.67.89:1080 -o page1.html -D cookie0002.txt -b cookie0001.txt http://www.linuxidc.com

这样，我们就可以几乎模拟所有的IE操作，去访问网页了！

6）稍微等等    ~我好像忘记什么了    ~

对了！是浏览器信息

有些讨厌的网站总要我们使用某些特定的浏览器去访问他们，有时候更过分的是，还要使用某些特定的版本     NND，哪里有时间为了它去找这些怪异的浏览器呢！？

好在curl给我们提供了一个有用的option，可以让我们随意指定自己这次访问所宣称的自己的浏览器信息： -A

$ curl -A "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)" -x 123.45.67.89:1080 -o page.html -D cookie0001.txt http://www.linuxidc.com

这样，服务器端接到访问的要求，会认为你是一个运行在Windows 2000上的 IE6.0，嘿嘿嘿，其实也许你用的是苹果机呢！

而"Mozilla/4.73 [en] (X11; U; Linux 2.2; 15 i686"则可以告诉对方你是一台 PC上跑着的Linux，用的是Netscape 4.73，呵呵呵

7）另外一个服务器端常用的限制方法，就是检查http访问的referer。比如你先访问首页，再访问里面所指定的下载页，这第二次访问的 referer地址就是第一次访问成功后的页面地址。这样，服务器端只要发现对下载页面某次访问的referer地址不是首页的地址，就可以断定那是个盗连了    ~

讨厌讨厌 ~我就是要盗连    ~！！

幸好curl给我们提供了设定referer的option： -e

$ curl -A "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)" -x 123.45.67.89:1080 -e "mail.linuxidc.com" -o page.html -D cookie0001.txt http://www.linuxidc.com

这样，就可以骗对方的服务器，你是从mail.linuxidc.com点击某个链接过来的了，呵呵呵

8）写着写着发现漏掉什么重要的东西了！——- 利用curl 下载文件

刚才讲过了，下载页面到一个文件里，可以使用 -o ，下载文件也是一样。比如，

$ curl -o 1.jpg http://cgi2.tky.3web.ne.jp/~zzh/screen1.JPG

这里教大家一个新的option： -O 大写的O，这么用：

$ curl -O http://cgi2.tky.3web.ne.jp/~zzh/screen1.JPG

这样，就可以按照服务器上的文件名，自动存在本地了！

再来一个更好用的。

如果screen1.JPG以外还有screen2.JPG、screen3.JPG、....、screen10.JPG需要下载，难不成还要让我们写一个script来完成这些操作？

不干！

在curl里面，这么写就可以了：

$ curl -O http://cgi2.tky.3web.ne.jp/~zzh/screen[1-10].JPG

呵呵呵，厉害吧？！ ~

9）再来，我们继续讲解下载！

$ curl -O http://cgi2.tky.3web.ne.jp/~{zzh,nick}/[001-201].JPG

这样产生的下载，就是

~zzh/001.JPG

~zzh/002.JPG

...

~zzh/201.JPG

~nick/001.JPG

~nick/002.JPG

...

~nick/201.JPG

够方便的了吧？哈哈哈

咦？高兴得太早了。

由于zzh/nick下的文件名都是001，002...，201，下载下来的文件重名，后面的把前面的文件都给覆盖掉了 ~

没关系，我们还有更狠的！

$ curl -o #2_#1.jpg http://cgi2.tky.3web.ne.jp/~{zzh,nick}/[001-201].JPG

—这是.....自定义文件名的下载？ —对头，呵呵！

这样，自定义出来下载下来的文件名，就变成了这样：原来： ~zzh/001.JPG —-> 下载后： 001-zzh.JPG 原来： ~nick/001.JPG —-> 下载后： 001-nick.JPG

这样一来，就不怕文件重名啦，呵呵

9）继续讲下载

我们平时在windows平台上，flashget这样的工具可以帮我们分块并行下载，还可以断线续传。curl在这些方面也不输给谁，嘿嘿

比如我们下载screen1.JPG中，突然掉线了，我们就可以这样开始续传

$ curl -c -O http://cgi2.tky.3wb.ne.jp/~zzh/screen1.JPG

当然，你不要拿个flashget下载了一半的文件来糊弄我    别的下载软件的半截文件可不一定能用哦 ~

分块下载，我们使用这个option就可以了： -r

举例说明

比如我们有一个http://cgi2.tky.3web.ne.jp/~zzh/zhao1.MP3 要下载（赵老师的电话朗诵 :D ）我们就可以用这样的命令：

$ curl -r 0-10240 -o "zhao.part1" http:/cgi2.tky.3web.ne.jp/~zzh/zhao1.MP3 &\

$ curl -r 10241-20480 -o "zhao.part1" http:/cgi2.tky.3web.ne.jp/~zzh/zhao1.MP3 &\

$ curl -r 20481-40960 -o "zhao.part1" http:/cgi2.tky.3web.ne.jp/~zzh/zhao1.MP3 &\

$ curl -r 40961- -o "zhao.part1" http:/cgi2.tky.3web.ne.jp/~zzh/zhao1.MP3

这样就可以分块下载啦。不过你需要自己把这些破碎的文件合并起来如果你用UNIX或苹果，用 cat zhao.part* > zhao.MP3就可以如果用的是Windows，用copy /b 来解决吧，呵呵

上面讲的都是http协议的下载，其实ftp也一样可以用。用法嘛，

$ curl -u name:passwd ftp://ip:port/path/file

或者大家熟悉的

$ curl ftp://name:passwd@ip:port/path/file

10) 说完了下载，接下来自然该讲上传咯上传的option是 -T

比如我们向ftp传一个文件：

$ curl -T localfile -u name:passwd ftp://upload_site:port/path/

当然，向http服务器上传文件也可以比如

$ curl -T localfile http://cgi2.tky.3web.ne.jp/~zzh/abc.cgi

注意，这时候，使用的协议是HTTP的PUT method

刚才说到PUT，嘿嘿，自然让老服想起来了其他几种methos还没讲呢！ GET和POST都不能忘哦。

http提交一个表单，比较常用的是POST模式和GET模式

GET模式什么option都不用，只需要把变量写在url里面就可以了比如：

$ curl http://www.linuxidc.com/login.cgi?user=nickwolfe&password=12345

而POST模式的option则是 -d

比如，

$ curl -d "user=nickwolfe&password=12345" http://www.linuxidc.com/login.cgi

就相当于向这个站点发出一次登陆申请    ~

到底该用GET模式还是POST模式，要看对面服务器的程序设定。

一点需要注意的是，POST模式下的文件上的文件上传，比如

<form method="POST" enctype="multipar/form-data" action="http://cgi2.tky.3web.ne.jp/~zzh/up_file.cgi">

<input type=file name=upload>

<input type=submit name=nick value="go">

</form>

这样一个HTTP表单，我们要用curl进行模拟，就该是这样的语法：

$ curl -F upload=@localfile -F nick=go http://cgi2.tky.3web.ne.jp/~zzh/up_file.cgi

罗罗嗦嗦讲了这么多，其实curl还有很多很多技巧和用法比如 https的时候使用本地证书，就可以这样

$ curl -E localcert.pem https://remote_server

再比如，你还可以用curl通过dict协议去查字典    ~

$ curl dict://dict.org/d:computer

我使用过的Linux命令之curl - 强大的网络传输工具

本文链接：http://codingstandards.iteye.com/blog/807844 （转载请注明出处）

用途说明

curl命令是一个功能强大的网络工具，它能够通过http、ftp等方式下载文件，也能够上传文件。其实curl远不止前面所说的那些功能，大家可以通过man curl阅读手册页获取更多的信息。类似的工具还有wget。

curl命令使用了libcurl库来实现，libcurl库常用在C程序中用来处理HTTP请求，curlpp是libcurl的一个C++封装，这几个东西可以用在抓取网页、网络监控等方面的开发，而curl命令可以帮助来解决开发过程中遇到的问题。

常用参数

curl命令参数很多，这里只列出我曾经用过、特别是在shell脚本中用到过的那些。

-v/--verbose 小写的v参数，用于打印更多信息，包括发送的请求信息，这在调试脚本是特别有用。

-m/--max-time <seconds> 指定处理的最大时长

-H/--header <header> 指定请求头参数

-s/--slient 减少输出的信息，比如进度

--connect-timeout <seconds> 指定尝试连接的最大时长

-x/--proxy <proxyhost[:port]> 指定代理服务器地址和端口，端口默认为1080

-T/--upload-file <file> 指定上传文件路径

-o/--output <file> 指定输出文件名称

-d/--data/--data-ascii <data> 指定POST的内容

--retry <num> 指定重试次数

-e/--referer <URL> 指定引用地址

-I/--head 仅返回头部信息，使用HEAD请求

使用示例

示例一获取指定网页

[root@jfht ~]# curl http://www.sunrisecorp.net/
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gbk" />
<meta name="title" content="欢迎您 - 上海腾一" />
<meta name="keyword" content="上海腾一，融合通信，电子商务，语音通信，数据通信，基站工程外包托管，物联网，网站建设，电子商务解决方案，移动互联网，短信，彩信，呼叫中心，多方会议，PBX，IVR，电子商务策划方案，设备代维，网络优化，通信工程，电信增值，3G" />
<meta name="description" content="上海腾一信息技术有限公司专注于电信增值、通信工程、电子商务等领域，拥有近十年的经验。" />
<title>
欢迎您 - 上海腾一
</title>

插播一下广告：上海腾一信息技术有限公司是一家致力于通信工程、电子商务和电信增值业务的公司，请访问官方网址： http://www.sunrisecorp.net/ 。

此处省略掉网页内容。

</body>
</html>[root@jfht ~]#

示例二查看响应头信息

[root@jfht ~]# curl -I http://www.sunrisecorp.net/
HTTP/1.1 200 OK
Server: Apache-Coyote/1.1
Accept-Ranges: bytes
ETag: W/"17801-1285643951000"
Last-Modified: Tue, 28 Sep 2010 03:19:11 GMT
Content-Type: text/html
Content-Length: 17801
Date: Tue, 12 Oct 2010 12:49:20 GMT

[root@jfht ~]#

示例三检查网页是否可正常访问

以下是一个tomcat监控脚本的部分内容。

Bash代码

# usage: check_once <port> <path>
# 使用curl检查网页是否可以正常访问，如果不能访问就重启tomcat。
check_once()
{
echo
echo "$(date) Tomcat check once"
# 2008.08.21 -I/--head -s/--silent
#if curl -s -I --connect-timeout 5 --max-time 10 http://localhost:$1/; then
# 2010.02.16 add 200 OK test
if curl -s -I --connect-timeout 5 --max-time 10 http://localhost:$1/$2 | grep -q '200 OK';
then
echo "$(date) Tomcat maybe OK"
else
echo "$(date) Tomcat maybe FAULT"
restart
fi
}
# usage: check_loop <port> <path>
# 每隔一分钟检查一次网页是否正常
check_loop()
{
while true;
do
sleep 60
check_once $1 $2 >> $CATALINA_HOME/logs/check.$(date +%Y-%m-%d).log
done
}
# usage: monitor <path>
# 对path指定的本机网页进行监控
# 2008.06.26
# 2010.09.20 add path parameter
monitor()
{
PORT=80
if grep 'Connector port="80"' $CATALINA_HOME/conf/server.xml; then
PORT=80
elif grep 'Connector port="8080"' $CATALINA_HOME/conf/server.xml; then
PORT=8080
else
echo "Cannot detect server port for Tomcat"
return 12
fi
echo "Tomcat server port is $PORT"
if status; then
check_loop $PORT "$1" &
#check_loop $PORT "$1"
fi
}

这个脚本的执行方式是 monitor <path>，比如monitor main/index.html。下面是执行时输出的日志信息片段。

2010年 10月 09日星期六 15:20:38 CST Tomcat check once
2010年 10月 09日星期六 15:20:46 CST Tomcat maybe OK

2010年 10月 09日星期六 15:21:46 CST Tomcat check once
2010年 10月 09日星期六 15:21:57 CST Tomcat maybe FAULT
Tomcat is now running, not stopped: 0
Tomcat is now running, not stopped: 1
Tomcat is now running, not stopped: 2
Tomcat is now running, not stopped: 3
Tomcat is now running, not stopped: 4
Tomcat is now running, not stopped: 5
Tomcat is now running, not stopped: 6
Tomcat is now running, not stopped: 7
Tomcat is now running, not stopped: 8
Tomcat is now running, not stopped: 9
Tomcat killed use SIGKILL
Tomcat stopped
Starting tomcat

2010年 10月 09日星期六 15:23:09 CST Tomcat check once
2010年 10月 09日星期六 15:23:09 CST Tomcat maybe OK

2010年 10月 09日星期六 15:24:09 CST Tomcat check once
2010年 10月 09日星期六 15:24:09 CST Tomcat maybe OK

示例四另一个检查网页是否正常的脚本

Bash代码

# 要检查的网页地址
URL="http://www.sunrisecorp.net/"
# usage:
curlit()
{
curl --connect-timeout 15 --max-time 30 --head --silent "$URL" | grep 'HTTP/1.1 200 OK'
}
# 只有MIN_ALARM次访问失败时才告警
MIN_ALARM=10
#
doit()
{
echo "===== $(now) ====="
if ! curlit; then
echo "$(now) bbdx nss access failed"
N=1
if [ -e curlit_error ]; then
N="$(cat curlit_error)"
N=$[N+1]
fi
echo "$(now) N=$N"
echo $N >curlit_error
if [ "$N" == "$MIN_ALARM" ]; then
echo "$(now) do notify"
touch curlit_error
notify_curlit_error
fi
else
if [ -e curlit_error ]; then
echo "$(now) recovered"
N=$(cat curlit_error)
echo "$(now) N=$N"
rm -f curlit_error
if [ "$N" -ge "$MIN_ALARM" ]; then
notify_curlit_recovered
fi
fi
fi
}
doit >>log/curlit.log 2>&1

示例五使用HttpPost上传数据

一个用于http post的脚本。

Bash代码

#!/bin/sh
MS=1350514xxxx
TM=$(date +"%Y%m%d%H%M%S")
DT=$(date +"%Y%m%d")
cat <<EOF >reqtmp.xml
<?xml version="1.0" encoding="GBK" ?>
<OwnPlatForm>
<OrigDomain>QZT</OrigDomain>
<HomeDomain>BOSS</HomeDomain>
<ActivityCode>T5100001</ActivityCode>
<ActionCode>0</ActionCode>
<TransIDO>$TM</TransIDO>
<TransIDH></TransIDH>
<ProcessTime>$TM</ProcessTime>
<CutOffDay>$DT</CutOffDay>
<TestFlag>0</TestFlag>
<Content>
<![CDATA[
<BizProcReq>
<IDType>01</IDType>
<IDValue>$MS</IDValue>
<UserCity>14</UserCity>
<UserCounty>1419</UserCounty>
<OprCode>01</OprCode>
<BizType>51</BizType>
<OprTime>$TM</OprTime>
<OprSrc>27</OprSrc>
<ProductInfo>
<PrdCode>510001</PrdCode>
</ProductInfo>
</BizProcReq>
]]>
</Content>
</OwnPlatForm>
EOF
cat reqtmp.xml
URL="http://10.32.140.230:7092/fcgi-bin/UIG_NEWINT"
curl --verbose --upload-file reqtmp.xml --header "Content-Type: text/xml" "$URL" --output rsptmp.xml
cat rsptmp.xml

示例六使用proxy的脚本

Bash代码

# usage: do_sync_once <mobile> <codes> <area_id> <opening>
do_sync_once()
{
mobile=$1
codes=$2
area_id=$3
opening=$4
curl --silent --max-time 60 --proxy http://10.32.187.170:8080 "http://host/boss/sync.jsp?seq=1251747862492&mobile=$mobile&serviceCodes=$codes&areaId=$area_id&opening=$opening"
}

示例七使用Google AJAX Search API进行搜索

Bash代码

# usage: google_search <STR>
# Google搜索
google_search()
{
REF="http://codingstandards.iteye.com/"
KEY="ABQIAAAAHg_ENG5Yq9pOZd19v64gyxTMcdcN4KfyGCBxustvF1FXdNe4WBQOej_ZiBgIK6-a4M3hTxcVfSkt2g"
STR="$1"
# 采用网页搜索
curl --retry 5 -e "$REF" "http://ajax.googleapis.com/ajax/services/search/web?v=1.0&q=$STR&hl=zh-CN&key=$KEY" 2>/dev/null
# 采用博客搜索
#curl -e $REF "http://ajax.googleapis.com/ajax/services/search/blogs?v=1.0&q=$STR&hl=zh-CN" 2>/dev/null
#curl --retry 5 -e $REF "http://ajax.googleapis.com/ajax/services/search/blogs?v=1.0&q=$STR&hl=zh-CN" 2>/dev/null
#curl --retry 5 -e "$REF" "http://ajax.googleapis.com/ajax/services/search/blogs?v=1.0&q=$STR&hl=zh-CN&key=$KEY" 2>/dev/null
}

秒客网

Linux curl使用简单介绍

我使用过的Linux命令之curl - 强大的网络传输工具

我使用过的Linux命令之curl - 强大的网络传输工具

用途说明

常用参数

使用示例

示例一获取指定网页

示例二查看响应头信息

示例三检查网页是否可正常访问

示例四另一个检查网页是否正常的脚本

示例五使用HttpPost上传数据

示例六使用proxy的脚本

示例七使用Google AJAX Search API进行搜索

问题思考

相关资料

相关文章

Linux curl使用简单介绍

我使用过的Linux命令之curl - 强大的网络传输工具

我使用过的Linux命令之curl - 强大的网络传输工具

用途说明

常用参数

使用示例

示例一 获取指定网页

示例二 查看响应头信息

示例三 检查网页是否可正常访问

示例四 另一个检查网页是否正常的脚本

示例五 使用HttpPost上传数据

示例六 使用proxy的脚本

示例七 使用Google AJAX Search API进行搜索

问题思考

相关资料

相关文章

示例一获取指定网页

示例二查看响应头信息

示例三检查网页是否可正常访问

示例四另一个检查网页是否正常的脚本

示例五使用HttpPost上传数据

示例六使用proxy的脚本

示例七使用Google AJAX Search API进行搜索