Google BERT与Smith算法协同工作-Semalt概述




Google最近发布了有关其新的NLP算法SMITH的研究论文。本文为许多SEO专业人员提供了启发,使他们可以保证SERP排名的上升或下降。尽管如此,我们关心的是这种新的SMITH算法与BERT相比如何?

在Google发表的论文中,他们声称SMITH在理解冗长的搜索查询和冗长的文档方面胜过BERT。使SMITH如此有趣的原因在于,它可以理解文档中的段落,就像BERT对单词和句子所做的一样。 SMITH的改进功能使它可以轻松理解更长的文档。

但是,在继续进行之前,我们必须通知您,截至目前,SMITH还没有出现在Google的算法中。但是,如果我们的猜测正确,它将与段落索引一起启动,或者在它之前发布。如果您真的对学习如何在SEP上排名感兴趣,那么机器学习将不可避免地与这种兴趣并驾齐驱。

回到主题,是否将要更换BERT?使用SMITH,网络上的大多数文档都不会庞大,健壮并因此具有更长的性能吗?

让我们更进一步,看看我们得出的结论。 SMITH可以完成读取健壮和精简文档的工作。认为它像一个火箭筒。否则会造成严重损坏,还会打开门。

首先,为什么选择BERT或SMITH?

真正的问题是,为什么搜索引擎需要自然学习处理才能提供搜索结果。答案很简单。搜索引擎在从搜索引擎理解字符串或关键字到事物或网页的过渡过程中需要NLP。

如果Google没有这个想法,那么除了关键字之外,页面上还有什么其他内容,或者与搜索查询相关的内容被编入索引是否有意义。借助NLP,Google可以理解在其搜索查询中键入的字符的上下文。
借助NLP,Google可以区分用户说“ riverbank”和“银行帐户”的意图。它也可以理解诸如“卡罗琳与她的朋友见面喝酒,品脱,淡啤酒,啤酒,啤酒……”这样的说法是不自然的。

作为SEO的专家,我们必须说,了解搜索查询已经走了很长一段路。最好的人认为,过去在互联网上找到合适的文章非常困难。

了解BERT

目前,BERT对于许多(如果不是大多数)应用程序,都是我们拥有的最佳NLP模型,尤其是在理解复杂的语言结构时。许多人认为第一个双向字符是此算法中的最大飞跃。 BERT不需要理解从左至右读取的算法,还可以理解与上下文相关的单词。这样,它不会为查询中输入的各个单词提供结果,而是根据搜索查询中单词的集体含义来索引网页。

这是一个示例,以帮助您理解:

卡车轻。

如果要从左到右解释该声明,则在到达“轻”一词时,您会将卡车归为轻类。那是因为卡车在声明中没有出现。

但是,如果我们想对卡车上的东西进行分类,则可能会忽略“轻”,因为我们不会在“卡车”之前碰到它。

仅凭一个方向就很难考虑这一说法。

此外,BERT具有如此卓越的另一个秘密好处,与以前的模型相比,它可以以较低的资源成本有效地进行语言处理。的确,这是要考虑将其应用于整个Web时要考虑的重要因素。

令牌的应用是伴随BERT的又一发展。 BERT中有30,000个令牌,并且每个单词代表一个普通单词,如果一个单词存在于30,000个单词之外,则每个单词代表一些额外的字符和片段令牌。

通过处理令牌和转换器的能力,BERT可以理解内容,还可以充分理解句子。

因此,如果我们说:“那位小姐去了河岸。后来她坐在河岸上,看着河水流淌。”

BERT将为这些句子分配不同的值,因为它们指的是两种不同的事物。

了解SMITH

然后是SMITH,一种具有更好资源和编号的算法,可用于处理较大的文档。 BERT每个文档使用大约256个令牌,当它超过此阈值时,对于最佳功能而言,计算成本将变得过高。相比之下,SMITH每个文档最多可以处理2248个令牌。这大约是令牌BERT使用数量的8倍。

要了解为什么在单个NLP模型中计算成本会上升,我们必须首先考虑理解一个句子和一个段落所需要的费用。处理句子时,只有一个一般概念可以理解。彼此相关的单词更少,因此单词与它们在记忆中所持有的观念之间的联系也更少了。

通过将句子分成段落,这些单词之间的联系大大增加了。使用相同的模型,处理文本的速度是文本的8倍,将需要更多次的速度和内存优化能力。这就是SMITH基本上是通过批量处理和进行大量脱机处理来发挥作用的地方。有趣的是,SMITH仍依赖于BERT才能正常运行。

这是关于SMITH如何以文档为核心的描述:
  1. 它首先将文档分为易于管理的分组大小。
  2. 然后,它分别处理句子的每个块。
  3. 转换器然后学习每个块的上下文表示,然后将它们转换为文档表示。

SMITH如何工作?

为了训练SMITH模型,我们通过两种方式向BERT学习:

要训​​练BERT,请从句子中删除一个单词,然后提供其他选项

BERT受过更好的培训,是从所提供的替代方案中选择正确选项的一种方法,它将更加成功。例如,如果给BERT句子:

快乐的布朗------跳过了栅栏。
  • 选项一-西红柿。
  • 选项二-狗。
BERT训练得越好,选择正确选项(即选项二)的机会就越大。

这种训练方法也适用于SMITH。

SMITH经过培训可处理大型文件

SMITH训练得越好,识别遗漏句子的机会就越大。 BERT的想法相同,但应用程序不同。这部分特别有趣,因为它描绘了一个由Google生成的内容拼凑成墙的搜索引擎结果页面的世界。当然,用户可以离开,但是他们不会,因为Google可以将其结果页上所有最佳来源的简短内容和长篇内容拼凑在一起。

如果您不确定这种情况的发生,您应该知道它已经开始发生,即使他们尚未掌握它,这也是一个开始。

SMITH比BERT好吗?

通过阅读所有内容,可以很自然地认为SMITH更好,并且在许多任务中,它确实是更好的。但是请考虑一下您如何使用互联网。您在搜索查询中定期输入哪些问题?
  • “今天的天气预报是什么?”
  • “前往餐厅的路线”。
回答此类搜索查询通常需要简短的内容,通常包含有限且简单的数据。 SMITH参与了更长,更复杂的文档以及长而复杂的搜索查询的理解。

这将包括将多个文档和主题拼凑在一起以创建其答案。它决定了内容的分解方式,使Google知道正确的显示内容。它将帮助Google理解内容页面之间的相互关系,并提供一个衡量链接价值的标准,其中包括其他好处。

综上所述,我们最后说BERT和SMITH都很重要,并且它们都有自己的独特目的。

结论

虽然SMITH是火箭筒,但我们需要它来描绘事物的整体情况。在资源方面,它的成本更高,因为它做的工作更大,但是在完成相同工作时,它的成本要比BERT少得多。

BERT帮助SMITH帮助理解短查询和微小的内容块。但是,直到Google开发出另一种NLP算法来替代这两种算法,然后我们才能赶上SEO的另一项进步。

对SEO感兴趣?查阅我们关于的其他文章 塞马尔特博客