如何从带有url的网页上阅读Open Graph和meta标签

我希望我的网站能够在用户将链接粘贴到邮箱时提取有关网页的信息,类似于Facebook。

我想知道Google,Reddit和Facebook这样的网站如何能够只用URL检索缩略图,标题和描述。

谁知道他们是怎么做到的?

基本算法相当简单:获取页面,分析内容,提取文本和图像以及标题等等,构建预览。 然而,特定用例存在很多困难。 菜单,横幅和添加,文本结构 – 大量不同的细节,需要非常严格的处理。 AFAIK没有算法可以在100%的情况下解决这个任务(是的,谷歌和其他算法并不完美)。

关于Reddit。 由于它是开源的,你可以找到它们是如何完成它的。 以下是您正在寻找的代码: https : //github.com/reddit/reddit/blob/master/r2/r2/lib/scraper.py

Yandex有API允许做同样的事情。 你可以在这里和这里找到更多。