标记的问题 [web-scraping]

12
2 回复
在服务器上运行selenium浏览器(Flask / Python / Heroku)
我正在抓一些似乎有很好保护的网站。我可以让它工作的唯一方法是使用Selenium加载页面,然后从中抓取东西。 目前这适用于我的本地计算机(当我访问我的页...
28
4 回复
使用python-Scrapy刮擦动态内容
免责声明:我在StackOverflow上看过很多其他类似的帖子,并尝试以相同的方式进行,但它们似乎无法在此网站上运行。 我正在使用Python-Scrapy从koovs.com获...
问 4年前
23
7 回复
如何处理IncompleteRead:在python中
我正在尝试从网站上获取一些数据。但是它还给我incomplete read。我想要获取的数据是一组庞大的嵌套链接。我在网上进行了一些调查,结果发现这可能是由于服...
12
2 回复
VBA - XMLHTTP和WinHttp请求速度
下面是我在宏中实现的3个请求的声明变量。我列出了他们使用的库以及他们在评论中的后期绑定:  Dim XMLHTTP As New MSXML2.XMLHTTP 'Microsoft XML, v6.0...
15
3 回复
Scrapy是否有可能直接从原始html数据中获取纯文本而不是使用xPath选择器?
例如:  scrapy shell http://scrapy.org/ content = hxs.select('//*[@id="content"]').extract()[0] print content 然后,我得到了以下原始HTML代码:...
41
3 回复
在urllib3中我应该使用什么来打开url而不是urlopen
我想写一段代码,如下所示:  from bs4 import BeautifulSoup import urllib2 url = 'http://www.thefamouspeople.com/singers.php' html = urllib2.urlo...
37
3 回复
单击Scrapy中的按钮
我正在使用Scrapy抓取网页。当您点击某个按钮时,我只需弹出一些我需要的信息(当然,点击后也会出现在HTML代码中)。 我发现Scrapy可以处理表单(如登录...
15
3 回复
网站无法识别我的输入[如何从VBA手动触发IE dom事件]
我想自动购买gdax。但我在Amount窗口中的输入无法识别。我可以在小字段上看到:Total (LTC) ≈ 0.00000000 我的代码:  Sub test() Dim ObjIE As Ne...
22
9 回复
如何使用Jsoup通过HTTPS连接?
它在HTTP上运行良好,但是当我尝试使用HTTPS源时,它会抛出以下异常:  10-12 13:22:11.169: WARN/System.err(332): javax.net.ssl.SSLHandshakeException...
16
3 回复
在python中使用selenium获取所有href链接
我在python中练习selenium,我想使用selenium获取网页上的所有链接。 例如,我想要来自此网站的“a href”标签中的所有链接: http://psychoticelites.com/<...
18
1 回复
Telegram机器人可以读取频道的消息
电报机器人是否可以读取/访问我或机器人不是管理员的电报频道? 我知道直到去年11月才有可能,但我听说有些人已经这样做了,但到目前为止我无法做到。...
13
1 回复
使用BeautifulSoup和Python抓取多个页面
我的代码成功地从[ http://my.gwu.edu/mod/pws/courses.cfm?campId=1&termId=201501&subjId=ACCY ]并将td元素写入文本文件。 但是,上面的网站上...
60
5 回复
Puppeteer:在.evaluate()中传递变量
我正在尝试将变量传递到 Puppeteer ,但是当我使用下面非常简单的例子时,变量evalVar是未定义的。 我是Puppeteer的新手,找不到任何构建的示例,所以我需...
14
4 回复
scrapy-如何停止重定向(302)
我正在尝试使用Scrapy抓取网址。但它将我重定向到不存在的页面。  Redirecting (302) to <GET http://www.shop.inonit.in/mobile/Products/Inonit-Hom...
70
9 回复
使用Java进行Web抓取
我无法找到任何好的网络抓取基于Java的API。我需要抓取的网站也没有提供任何API;我想使用pageID迭代所有网页,并在DOM树中提取HTML标题/其他内容。 除了网...
问 11个月前
32
6 回复
如何从Python调用Javascript函数?
我正在开展网络抓取项目。我正在使用的其中一个网站的数据来自Javascript。 有关我之前的一个问题的建议,我可以直接从Python调用Javascript,但我'我不知...
12
13 回复
什么是最好的屏幕拼写语言? [关闭]
您好我想创建一个桌面应用程序(c#prob),用于在第三方网页上搜索或操作表单。基本上我在桌面应用程序的表单中输入我的数据,它转到第三方网站,并使用脚...
38
9 回复
如何获取scrapy失败的URL?
我是scrapy的新手,它是我所知道的惊人的爬虫框架! 在我的项目中,我发送了超过90,000个请求,但其中一些请求失败了。 我将日志级别设置为INFO,我只能...
16
4 回复
基于浏览器的客户端抓取
我想知道是否有可能通过用户的IP抓取外部(跨域)页面? 对于购物比较网站,我需要抓一个e-com网站的页面,但是来自服务器的几个请求会让我被禁止,所以...
14
1 回复
Web抓取 - 如何通过Angular.js访问用JavaScript呈现的内容?
我正在尝试从公共网站上搜索数据 asx.com.au 页面 http://www.asx。 com.au/asx/research/company.do#!/ACB/details 包含一个div,其中包含“view-conte...