标记的问题 [beautifulsoup]

23
7 回复
如何处理IncompleteRead:在python中
我正在尝试从网站上获取一些数据。但是它还给我incomplete read。我想要获取的数据是一组庞大的嵌套链接。我在网上进行了一些调查,结果发现这可能是由于服...
41
3 回复
在urllib3中我应该使用什么来打开url而不是urlopen
我想写一段代码,如下所示:  from bs4 import BeautifulSoup import urllib2 url = 'http://www.thefamouspeople.com/singers.php' html = urllib2.urlo...
19
4 回复
使用BeautifulSoup删除特定类的div
我想从div对象中删除特定的soup。 我正在使用python 2.7和bs4。 根据文档,我们可以使用div.decompose()。 但那将删除所有div。如何删除具有特定类别的...
13
3 回复
如何使用BeautifulSoup从HTML中删除注释标记?
我一直在玩BeautifulSoup,这很棒。我的最终目标是尝试从页面中获取文本。我只是试图从正文中获取文本,并使用特殊情况从<a>或<img>标记中获取...
问 9年前
125
3 回复
TypeError:需要类似字节的对象,而不是python和CSV中的'str'
   TypeError:需要类似字节的对象,而不是'str' 在执行下面的python代码时将上述错误保存在Csv文件中以保存HTML表数据。不知道如何让rideup.pls帮助我...
31
7 回复
Python BeautifulSoup提取元素之间的文本
我尝试从以下HTML中提取“这是我的文本”:  <html> <body> <table> <td class="MYCLASS"> <!-- a comment -->...
问 6年前
88
7 回复
我们可以在BeautifulSoup中使用xpath吗?
我正在使用BeautifulSoup来抓取一个网址,我有以下代码  import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.ex...
17
3 回复
如何使用BeautifulSoup 4替换或删除“&nbsp;”等HTML实体
我使用Python和BeautifulSoup 4库处理HTML,我找不到用空格替换&nbsp;的明显方法。相反,它似乎被转换为Unicode非破坏空格字符。 我错过了一些明显的...
问 6年前
26
3 回复
美丽的汤:'ResultSet'对象没有属性'find_all'?
我正在尝试使用Beautiful Soup刮一张简单的桌子。这是我的代码:  import requests from bs4 import BeautifulSoup url = 'https://gist.githubuserconte...
问 5年前
15
4 回复
使用Python 2.7解析HTML - HTMLParser,SGMLParser或Beautiful Soup?
我想用Python 2.7做一些屏幕抓取,我没有HTMLParser,SGMLParser或Beautiful Soup之间差异的背景。 这些都试图解决同样的问题,还是因为不同的原因而存在...
18
4 回复
使用Python解码HTML实体
我正在尝试从这里解码HTML条目 NYTimes.com ,我无法弄清楚我做错了什么。 以例如:  "U.S. Adviser&#8217;s Blunt Memo on Iraq: Time &#8216;...
27
2 回复
BeautifulSoup .prettify()的自定义缩进宽度
有没有办法为.prettify()函数定义自定义缩进宽度?从我可以从它的来源获得 -  def prettify(self, encoding=None, formatter="minimal"): if encodi...
13
1 回复
beautifulSoup html csv
晚上好,我使用BeautifulSoup从网站上提取一些数据如下:  from BeautifulSoup import BeautifulSoup from urllib2 import urlopen soup = BeautifulSoup...
31
3 回复
Beautifulsoup - nextSibling
我正在尝试使用以下内容获取“我的家庭地址”,但得到了AttributeError:  address = soup.find(text="Address:") print address.nextSibling 这是我的HTM...
问 10个月前
43
8 回复
屏幕抓取:绕过“HTTP错误403:robots.txt禁止请求”
有没有办法解决以下问题?  httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt 唯一的办法是联系网站所有者(barnesandnoble....
82
3 回复
我可以使用BeautifulSoup删除脚本标签吗?
可以使用BeautifulSoup从HTML中删除脚本标记及其所有内容,还是必须使用正则表达式或其他内容?      82 3答案                              3      ...
问 8年前
16
3 回复
使用beautifulsoup在换行符之间提取文本(例如<br />标签)
我在更大的文档中有以下HTML  <br /> Important Text 1 <br /> <br /> Not Important Text <br /> Important Text 2 <br /&g...
14
1 回复
Web抓取 - 如何通过Angular.js访问用JavaScript呈现的内容?
我正在尝试从公共网站上搜索数据 asx.com.au 页面 http://www.asx。 com.au/asx/research/company.do#!/ACB/details 包含一个div,其中包含“view-conte...