从网页获取信息（标题，图片，头等）

在Facebook中，当您向墙壁添加链接时，它会获得标题，图片和部分文本。我在其他可以添加链接的网站上看到过这种行为，它是如何工作的？它有名字吗？有没有实现它的javascript / jQuery扩展？

怎么可能facebook去另一个网站并获取html，据说，禁止进行跨站点ajax调用？

谢谢。

您可以使用PHP服务器端脚本来获取任何网页的内容（查找Web抓取）。 facebook所做的是通过ajax抛出对PHP服务器端脚本的调用，该调用具有调用的PHP函数

file_get_contents('http://somesite.com.au');

现在，一旦文件或网页被吸入您的服务器端脚本，您就可以过滤特定内容。例如。 Facebook获取链接将寻找标题，img和meta property =“通过正则表达式描述文件或网页的部分

例如。 PHP的

 preg_match(); Function.

这可以收集然后返回到您的网页。

您可能还需要考虑添加额外的function来返回所需的数据，因为某些页面可能需要比预期更长的时间才能返回所需的信息。例如。过滤掉不相关的东西，如javascript，css，无关标签，巨大的图像等，以使其运行更快。

如果你认真对待这个问题，那么你可能正在构建一个网络搜索引擎，或者更好的方法是从像黄页这样的网站上收集数据。电话号码，邮寄地址等

您也可以进一步了解：

 get_meta_tags('http://somesite.com.au');

🙂

基本方法论

触发fetch事件时（例如在Facebook上粘贴URL），您可以使用AJAX请求url *，然后根据需要解析返回的数据。

解析数据是棘手的，因为许多网站都有不同的标准。在标题标签之间采用文本是一个良好的开端，同时可能搜索META描述（但随着搜索引擎演变为更复杂的基于内容的搜索，这些描述越来越少）。

如果做不到这一点，你需要一些方法来找到页面上最重要的文字，并取出前100个字符左右，以及找到页面上最突出的图片。

这不是一项微不足道的任务，尝试从这样一个流畅且对比鲜明的数据集（一般返回的网页）中导出语义非常复杂。例如，您可能会在页面上找到最大的图像，这是一个良好的开端，但您怎么知道它不是背景图像？你怎么知道最能描述该页面的图像？

祝好运！

*如果您不能直接使用AJAX第三方URL，可以通过请求本地服务器上的页面来完成此操作，该页面使用某种HTTP请求获取远程页面服务器端。

一些额外的想法

如果您从远程服务器获取图像并在您的网站上“热链接”它，当您尝试显示此图像时，许多网站似乎有时会出现“反链接”替换图像，因此可能需要比较服务器中请求的图像带有实际提取图像的页面，这样您就不会出现任何令人讨厌的事故。

头部中的很多标题标签都是通用的，不具有描述性，如果有一个可用的文章标题（假设文章类型网站）会更好，因为它会更具描述性，但发现这很难！

如果你真的很聪明，你可能会以谷歌为例（请查看他们的T＆C）。如果用户请求某个url，您可以在后台谷歌搜索它，并使用返回的谷歌描述性文字作为返回文本。如果谷歌显着改变他们的标记虽然这可能会很快破裂！

有几个API可以提供此function，例如，PageMunch允许您传入URL和回调，以便您可以从客户端执行此操作或通过您自己的服务器提供它：

http://www.pagemunch.com

BBC网站的示例回复如下：

 { "inLanguage": "en", "schema": "http:\/\/schema.org\/WebPage", "type": "WebPage", "url": "http:\/\/www.bbc.co.uk\/", "name": "BBC - Homepage", "description": "Breaking news, sport, TV, radio and a whole lot more. The BBC informs, educates and entertains - wherever you are, whatever your age.", "image": "http:\/\/static.bbci.co.uk\/wwhomepage-3.5\/1.0.64\/img\/iphone.png", "keywords": [ "BBC", "bbc.co.uk", "bbc.com", "Search", "British Broadcasting Corporation", "BBC iPlayer", "BBCi" ], "dateAccessed": "2013-02-11T23:25:40+00:00" }

您可以随时查看标签中的内容。如果你在javascript中需要它，那应该不那么难。获得数据后，您可以执行以下操作：

 var title = $(data).find('title').html();

问题是获取数据，因为我认为大多数浏览器都会阻止您制作跨站点ajax请求。您可以通过在您的网站上提供服务来解决这个问题，该服务将充当代理并向您提出请求。但是，此时您还可以解析服务器上的标题。既然你没有说明你的后端语言是什么，我现在就不用费心了。

由于跨域策略，纯JavaScript无法实现 – 客户端脚本无法读取其他域上的页面内容，除非该其他域明确公开JSON服务。

诀窍是发送服务器端请求（每个服务器端语言都有自己的工具），使用正则表达式或其他一些字符串解析技术解析结果，然后使用此服务器端代码作为“代理”来“动态”进行AJAX调用发布链接。

从网页获取信息（标题，图片，头等）

Facebook：publish_actions的备注说，不会批准应用程序使用publish_actions

如何在facebook应用程序中使用jQuery

在谷歌分析中跟踪Facebook评论小部件的最佳方法是什么？

Facebook Sharer + jquery

通过api检索facebook分享计数

如何在谷歌浏览器中使用Facebook API？

fb：login_button无法在45秒内resize

使用JSON显示来自多个facebook Feed的post

Facebook喜欢和分享插件扭曲页面，而他们正在加载chrome（桌面和iPad）

使用JQuery更改Facebook元标记内容属性