如何用Python爬取上道网的赞助公司名称?
如何用Python爬取上道网的赞助公司名称?一、前言上道网是一个手游发行推荐与投融资交易平台。平台聚集手游CP、手游发行、手游渠道、手游外包,投资商以及IP授权商,IP合作、一站式
一、前言
上道网是一个手游发行推荐与投融资交易平台。平台聚集手游CP、手游发行、手游渠道、手游外包,投资商以及IP授权商,IP合作、一站式服务。并为之提供合作交易机会。
今天教如何去爬取上道网的赞助公司名称,方便有关人士投资。
二、实现目标
获取对应的公司名称,保存文档。
三、项目准备
软件:PyCharm
需要的库:requests,fake_useragent,time
网址:http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-{}.html
四、项目分析 如何网页访问?
http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-1.html
http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-2.html
http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-3.html
http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-4.html
点击下一页时,每增加一页p-{}.html自增加1,用{}代替变换的变量,再用for循环遍历这网址,实现多个网址请求。
五、项目实现
1. 定义一个class类继承object,定义init方法继承self,主函数main继承self。导入需要的库、请求地址。import requestsfrom lxml import etreefrom fake_useragent import UserAgentimport time
class Shangdao(object): def __init__(self): self.url = "http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-{}.html" #网站 def main(self): pass
if __name__ == '__main__': Siper = Shangdao() Siper.main()2. 随机产生UserAgent,防止反爬。for i in range(1, 50): self.headers = { 'User-Agent': ua.random, }3. 发送请求 获取响应, 页面回调,方便下次请求。
def get_page(self, url): res = requests.get(url=url, headers=self.headers) html = res.content.decode("utf-8") return html4. 获取公司名称,for遍历。
def page_page(self, html): parse_html = etree.HTML(html) one = parse_html.xpath('//h2/a/text()') for i in one: print(i)5. 写入文档。
f = open('公司.doc', 'a', encoding='utf-8') # 以'w'方式打开文件 f.write(str(i))6. 调用方法,实现功能。
def main(self): stat = int(input("输 入 开 始 (2开始):")) end = int(input("输 入 结 束:")) for page in range(stat, end + 1): url = self.url.format(page) print(url) html = self.get_page(url) self.page_page(html) print("==================第%s页爬取成功!!!!=====================" % page)项目优化:
1. 设置时间延时。time.sleep(1.4)
六、效果展示
点击绿色小三角运行输入起始页,终止页( 从0页开始 )。
渠道公司名,结果显示控制台。
保存文档。
七、总结
1. 不建议抓取太多数据,容易对服务器造成负载,浅尝辄止即可。2. 希望通过这个项目,能够帮助了解xpath解析页面的基本流程,字符串是如何拼接,format函数如何运用。3. 本文基于Python网络爬虫,利用爬虫库,实现爬取上道网,但是到自己动手实现的时候,总会有各种各样的问题,切勿眼高手低,勤动手,才可以理解的更加深刻。
-
聚焦智慧化能力落地 联想入围重庆“智慧名城风景眼”等重大项目顶层设计2021-01-08
-
斯坦福大学新项目,让自动驾驶汽车安全地加塞2021-01-06
-
保时捷最新3D打印项目:完全集成的电驱动器壳体2020-12-31
-
健康中国行动患者体验评价项目专题研讨会在京举行2020-12-30
-
总资高达56亿,繁昌区第四季度招商引资项目启动2020-12-29
-
回盛生物投资建设年产1000吨泰乐菌素与年产600吨泰万菌素生产线扩建项目2020-12-29
-
喜报 易联众联合体中标河北省医疗保障信息平台建设项目2020-12-24
-
拒绝收购特斯拉!苹果推进Titan项目,成特斯拉直接竞争对手2020-12-23
-
SpaceX星链项目获澳大利亚许可,或将用于5G建设2020-12-22
-
三元基因:精选层四大研发募投项目瞄准“世界级”难题2020-12-17
-
金属3D打印专家铂力特中标4600万元金属3D打印项目2020-12-09
-
前海生命健康产业论坛暨项目路演圆满结束2020-12-07
-
喜报 易联众电子健康卡项目又双叒叕获奖啦!2020-12-07
-
“橙心优选”何以成为滴滴“投入不设上限”的重点项目?2020-12-02
-
金龙机电拟投建生产基地 项目总投资额达24亿元2020-12-02