珍爱网的 cityList改成 js文件了,并且加入了一些数字字母 怎么爬
来源:15-3 提取城市和url

qq_该努力了_04033947
2019-01-10
求助
4回答
-
刘老先生
2020-02-06
我稍微改了一下能正确的爬出来了,确实他们的网站进行了一些改版,我把整个网页当成了string就可以爬到了
时间是2020年2月6日有效
func main() {
resp, err := http.Get("http://www.zhenai.com/zhenghun")
if err!=nil{
panic(err)
}
defer resp.Body.Close()
//e:=determinEncoding(resp.Body)
//utf8reader:=transform.NewReader(resp.Body,e.NewDecoder())
if resp.StatusCode!=http.StatusOK{
fmt.Println("err")
return
}
all,err:=ioutil.ReadAll(resp.Body)
if err!=nil{
panic(err)
}
getmatch(string(all))
//fmt.Printf("%s\n",all)
}
func getmatch(contents string){
re:=regexp.MustCompile(`<a href="(http://www.zhenai.com/zhenghun/[a-z0-9]*)"[^>]*>([^<]*)</a>`)
matches:=re.FindAllStringSubmatch(contents,-1)
for _,match:= range matches{
fmt.Println(match[1],match[2])
}
fmt.Println(len(matches))}10 -
兜兜转转便是空
2020-02-06
很多信息都可以扒他的json,扒他的json解析可以拿到很多数据
var jsonRe = regexp.MustCompile(`STATE__=(.*)+;\(function`)
用这个能扒到它的json
022020-02-07 -
刘老先生
2020-02-06
虽然他把网页做了改版,但是我在通过http请求的时候我发现我返回的是内容完全是没有格式的,很类似字符串然后我就发http返回的内容直接格式化成了字符串然后通过字符串的方式匹配成功了,通过findall 这种方式如果不是字符串匹配不成功,
00 -
ccmouse
2019-01-13
已在另一个问题中解答
022020-01-06
相似问题