1、从html文件中去除所有html标签只保留纯文本
|
|
2、从URL中提取域名
使用urlparse模块:Parse URLs into components
3、获取HTTP请求的状态码(200,404等)
http不只有get方法(请求头部+正文),还有head方法,只请求头部。
使用httplib模块:HTTP protocol client
使用requests模块:HTTP for Humans
心有猛虎 , 细嗅蔷薇
|
|
使用urlparse模块:Parse URLs into components
http不只有get方法(请求头部+正文),还有head方法,只请求头部。
使用httplib模块:HTTP protocol client
使用requests模块:HTTP for Humans