Tag: web scraping

寻找一种用JS抓取HTML的方法

正如标题所示,我正在寻找一种从网页上抓取所有HTML的希望直截了当的方法。 也许将它存储在字符串中,然后浏览该字符串以拉出所需的元素。 具体来说,我想刮掉我的推特页面并在新的div中显示我的个人资料图片。 我知道有几个工具可以做到这一点,但我会有一些代码示例或建议我如何自己这样做? 非常感谢 UPDATE 在TJ Crowder的一个非常有用的回复之后,我在网上搜索了一些并找到了这个资源 。

如何下载分页Jquery / JS表的内容?

我的愿望是下载分页Jquery或Javascript表的全部内容,而不必在每个200页上手动点击并复制内容。 要获取的表的示例 : http : //theforexchampionship.com/ranking/ 以更一般的方式,这个问题适用于JQuery插件创建的表,如Jquery Datatables? 有没有办法,比如,一个自动化脚本,一个在JS中注入参数的工具(例如“0,999999”边界到JS lib,它将提供一个带有最小和最大边界的函数),或者某种方式?? 精度 :我说的是一个你无法访问源代码的网站

是否可以在服务器端运行jQuery?

我正在进行网页抓取已经实现了AJAX分页,因为网站是在asp中开发的,扩展名为.aspx的页面我试过提交分页表单以获取除第一页以外的其他页面的数据但是没有取得任何成功,请看这里代码我使用了所有asp.net页面中的Scraping数据,实现了AJAX分页 ,所以我的问题是如何点击php的分页链接,即可以在服务器端运行jQuery或javascript吗? 我知道Node.js可以用来在服务器端运行javascript,但不知道如何在Apache和PHP中使用它

这是什么类型的HTML表格,您可以使用哪种类型的网页抓取技术?

我试图在这个链接中提取数据, http://www.rchsd.org/doctors/index.htm?strt = 0&ln =&fn =&sp =&grp =&loc =&lng =&gen = ,用R但它更确切难。 我注意到,每当我点击页码时,url链接都不会改变。 这个表是用JavaScript创建的吗? 表是由某些外部源创建的,我如何才能访问它? 此外,这种类型的表有技术名称吗? 此外,对于任何知道使用R或任何其他程序进行网页抓取的人,您将如何从此表中提取所有数据? 我尝试在R使用以下代码来提取数据,但我得到NULL 。 你会如何解决这个问题? mps <- paste("http://www.va.gov/providerinfo/SANDIEGO/index.asp?servicesearch=&specialtysearch=&gendersearch=&sort=&currentPage=1") mps.doc <- htmlParse(mps) mps.tabs <- readHTMLTable(mps.doc) 另外,如果你不能解决我问题的后半部分,那也没关系。 我主要想知道我问题上半部分的答案。

如何使用jQuery从其他网站抓取内容?

我正在用PHP做一个NEWS站点项目,对于这个项目,我想使用jQuery / JavaScript从其他NEWS站点获取内容。 jQuery中是否有任何function可以从其他域名中删除内容? 而且我也不想使用庞大的服务器CPU,因为它是一个大学服务器。 使用jQuery报废内容是否使用巨大的CPU? 在Stack Overflow中我读到了jQuery.get()函数,是否可以使用此函数从其他站点中抓取内容?

识别和提取图像的标题/描述(数据刮削Pinterest)

如何使用Javascript / jQuery来识别与具有多个图像和描述的网页上的图像相对应的描述或标题? 可以非常容易地提取页面标题,但是标题可能与图像不对应,尤其是如果页面上存在许多图像 var title = document.title; 我相信Pinterest的Pin-it书签已成功完成。 我猜它与算法有关,找到最近的h1 , h2 , h3或图像的alt属性,然后如果算法无法在页面上识别图像的描述,则回退到document.title 。 任何想法非常感谢! 编辑 这是用于抓取其他网站的数据