博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
网络爬虫基础练习
阅读量:6124 次
发布时间:2019-06-21

本文共 1379 字,大约阅读时间需要 4 分钟。

1.利用requests.get(url)获取网页页面的html文件

import requests

newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/'

res = requests.get(newsurl) #返回response对象

res.encoding='utf-8'

2.利用BeautifulSoup的HTML解析器,生成结构树

from bs4 import BeautifulSoup

soup = BeautifulSoup(res.text,'html.parser')

3.找出特定标签的html元素

soup.p #标签名,返回第一个

soup.head

soup.p.name #字符串

soup.p. attrs #字典,标签的所有属性

soup.p. contents # 列表,所有子标签

soup.p.text #字符串

soup.p.string

soup.select(‘li')

4.取得含有特定CSS属性的元素

soup.select('#p1Node')

soup.select('.news-list-title')

5.练习:

取出h1标签的文本

import requests url='http://localhost:63342/untitled001/index.html?_ijt=qha65g9m3uvkp5ijfh0b7h041t' res = requests.get(url) res.encoding='utf-8' from bs4 import BeautifulSoup soup = BeautifulSoup(res.text,'html.parser') print(soup.h1.text)

 

取出a标签的链接

import requests url='http://localhost:63342/untitled001/index.html?_ijt=1jot1o2jp7hl0cfc7hs6vhl2j3' res = requests.get(url) res.encoding='utf-8' from bs4 import BeautifulSoup soup = BeautifulSoup(res.text,'html.parser') # print(soup.h1.text) print(soup.a.attrs['href'])

 

取出所有li标签的所有内容

print(soup.li.attrs)

取出一条新闻的标题、链接、发布时间、来源

print(soup.a.attrs['href'])print(soup.select('.news-list-title')[0].text)print(soup.select('li')[2].a.attrs['href'])print(soup.select('.news-list-info')[0].contents[0].text)print(soup.select('.news-list-info')[0].contents[1].text)

 

转载于:https://www.cnblogs.com/mimimi/p/8671894.html

你可能感兴趣的文章
[Oracle维护工程师手记]两表结合的MVIEW的告诉刷新
查看>>
LeetCode: Integer to Roman 解题报告
查看>>
在C#中实现Json的序列化与反序列化
查看>>
.Net程序集的不同加载方式,以及其在内存中格式
查看>>
Oracle DBA手记—数据库诊断案例与性能优化实践(盖国强亲自策划)
查看>>
一起谈.NET技术,C#调试心经
查看>>
LaTeX技巧206:使用gather输入多行公式的技巧
查看>>
Visual C++ 8.0对象布局的奥秘:虚函数、多继承、虚拟继承
查看>>
Android API之android.provider.ContactsContract
查看>>
socket() failed (13: Permission denied) while connecting to upstream
查看>>
IOS开发实现录音功能
查看>>
thinkphp更新数据库的时候where('')为字符串
查看>>
python2用pip进行安装时报错Fatal error in launcher: Unable to create process using '"'
查看>>
分布式数据库数据从属与client与server的数据同步
查看>>
K8s快速入门
查看>>
.NET连接SAP系统专题:C#调用BAPI给账户赋予权限(八)
查看>>
24、printf跨平台,数据类型与输出类型要匹配
查看>>
浅谈ASP.NET核心对象【转】
查看>>
HDU 1728 逃离迷宫
查看>>
jQuery设计思想
查看>>