手机号码归属地 抓取
话说人有时是需要狠狠动下脑子的
因为在做一个程序,需要手机号码归属地的数据,比如说知道1346636是北京动感地带的
先是网上找现成数据库,没有完整的并且是新的下载的。那么两条路,一条是从在线查询的里抓数据,一条是从现有的离线程序中抓。不过第二条难度过大,并且看来看去并没有什么特别的数据库,即使是那个众易网(xeasy.net)号称专门做这生意的,数据也并不好
最后多番比较,还是imobile.com.cn的数据是最好的,google和百度的在线手机归属地查找用的也是它家的数据。仔细找,它有个专门查找的页面也是非常好,返回的页面代码量很小,最适合做数据抓取了。半个钟头就写好了抓取程序(这已经是前天的事了),很高兴的开始运行,没想到抓了一千多条数据后就报错,这个网站竟然ban我ip了,我再访问那个页面就直接定向到主页了。
两天来没有办法。。。郁闷中
呵呵,今天突然想到,它不可能把google的ip也ban了吧,不然google抓它数据不是都抓不全了?于是找到另一条路子,改改程序,可以用了。呵,不过怎么通过google抓取呢?google有个入口可以把网页数据通过它自己再返回来的哦。嗯,保密保密~~嘿嘿
居然用google的API…
[Reply]
没有没有,实际上用Google API也没有用。因为即使是Google,对于一个比如query.asp?card=1380000的页面,也不可能把所有手机号先查一遍,再缓存到网页快照啊,何况它又不知道参数应该传什么。所以需要找到一个让Google立即去查的方法
[Reply]
我们的号段数据一直被人抓,快5年了,你把手机之家的防抓想的太简单了
[Reply]
是么?不过这次至少我确实都抓下来了
只是我觉得数据还是比较一般,不如现有的几个软件里的号码数据全,尤其卡类型总共才8种,实际上很多都被合到一类里了
[Reply]
FT,大牛撞见大大牛了!
[Reply]
难道是google的即时翻译?
[Reply]