注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册

首页 > 新闻资讯 > python爬虫抓取网站数据的一些技巧

python爬虫抓取网站数据的一些技巧

来源:IP代理精灵 作者:admin 时间:2019-04-23 11:19:54

用python做爬虫可以说是非常常见的,很多人都选择这门语言来做爬虫,因为它简洁。接下来整理了一些python爬虫的相关技巧,希望能给初学者带来帮助。

python爬虫抓取网站数据的一些技巧

一、最基本的操作


抓取某个站点。


import urllib2


content = urllib2.urlopen('http://XXXX').read()


二、使用代理IP


最头疼的事情莫过于封IP了,不过魔高一尺道高一丈,使用代理IP,轻松解决难题。


import urllib2


proxy_support = urllib2.ProxyHandler({'http':'http://XX.XX.XX.XX:XXXX'})


opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)


urllib2.install_opener(opener)


content = urllib2.urlopen('http://XXXX').read()


三、cookie的处理


登陆的时候不得不面对cookie,cookie不处理好,很可能被目标服务器发现爬虫行为,进而做出限制。


import urllib2, cookielib


cookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())


opener = urllib2.build_opener(proxy_support, cookie_support, urllib2.HTTPHandler)


urllib2.install_opener(opener)


content = urllib2.urlopen('http://XXXX').read()


四、User-Agent的处理


爬虫行为很令人反感,恨不得杀之后快,但如果伪装成浏览器访问时,目标服务器就视而不见了。如何伪装呢,这就要通过修改HTTP包中的Header的User-Agent来实现了。


headers = {


'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'


}


req = urllib2.Request(


url = 'http://***.****.***/***/****',


data = postdata,


headers = headers


)


当然,更好的办法是搜集很多浏览器的User-Agent,然后随机使用。


五、多线程抓取信息


不会多线程抓取的爬虫不是好爬虫,由于顾忌到反爬策略,尽量模拟人工访问,速度自然不可能太快,所以只能多线程来抓取了。


from threading import Thread


from Queue import Queue


from time import sleep


#q是任务队列


#NUM是并发线程总数


#JOBS是有多少任务


q = Queue()


NUM = 2


JOBS = 10


#具体的处理函数,负责处理单个任务


def do_somthing_using(arguments):


print arguments


#这个是工作进程,负责不断从队列取数据并处理


def working():


while True:


arguments = q.get()


do_somthing_using(arguments)


sleep(1)


q.task_done()


#fork NUM个线程等待队列


for i in range(NUM):


t = Thread(target=working)


t.setDaemon(True)


t.start()


#把JOBS排入队列


for i in range(JOBS):


q.put(i)


#等待所有JOBS完成


q.join()


以上就是“python爬虫抓取网站数据的一些技巧”的全部内容,还有很多小技巧这里就不一一说明,爬虫需要代理IP可以联系ip代理精灵


最新资讯

推荐阅读

  1. 10

    2019-04

    反反爬虫的好帮手代理IP

    反反爬虫的好帮手代理IP!大数据爆发时代,爬虫扮演着重要角色。例如,新闻类APP通过爬虫,获得大量的优质资源,读者可以在一个平台上看到天下所有的内容,正所谓,不出门也能了解天下事

  2. 09

    2019-12

    浅谈各种类型代理IP背后的原理

    浅谈各种类型代理IP背后的原理!相信大家应该都会遇到过,当我们对某些网站进行爬去的时候,我们经常会换IP来避免爬虫程序被封锁。代理ip地址如何获取?其实也是一个比较简单的操作,目前

  3. 21

    2019-10

    为什么要使用代理ip?免费代理IP有哪些隐患?

    为什么要使用代理ip?免费代理IP有哪些隐患?很多人会问,代理ip是什么,我们为什么要使用代理ip?网络世界充斥着各种欺诈,信息泄露。也许您上网时会非常小心谨慎的查验广告并验证链接,但

  4. 21

    2019-05

    如何在手机上更换国内不同地区的IP

    手机广泛应用后,因为便于携带,使用也方便,手机用户愈来愈多,许多人逐渐用手机工作。可是不换ip特别容易被禁掉,这就要手机也能换ip,所以如何在手机上更换国内不同地区的IP呢?接下

  5. 22

    2018-11

    怎么突然爬虫被封了?爬虫被封常见原因

    新手做爬虫问题不断,这本来还好好的,怎么突然爬虫被封了,这怎么回事?究竟是哪里有问题呢?真心累,还只是采集小数据!!!

  6. 07

    2020-04

    哪些操作代理IP必不可少?

    哪些操作代理IP必不可少?随着网络的愈加发达,涌现出大量与网络相关的行业与商机,其中一些行业必须要用到代理IP。那么,在什么时候使用代理IP是必要的?什么地方离不开IP代理呢?