1、从html文件中去除所有html标签只保留纯文本
|
|
2、从URL中提取域名
使用urlparse
模块:Parse URLs into components
3、获取HTTP请求的状态码(200,404等)
http不只有get
方法(请求头部
+正文
),还有head
方法,只请求头部
。
使用httplib
模块:HTTP protocol client
使用requests
模块:HTTP for Humans
心有猛虎 , 细嗅蔷薇
|
|
使用urlparse
模块:Parse URLs into components
http不只有get
方法(请求头部
+正文
),还有head
方法,只请求头部
。
使用httplib
模块:HTTP protocol client
使用requests
模块:HTTP for Humans