Hoe Google BERT Vs. Smith-algoritmen werken samen - Semalt-overzicht




Google heeft onlangs een research paper uitgebracht over hun nieuwe NLP-algoritme SMITH. Dit artikel heeft veel SEO-professionals geïnformeerd over de veranderingen die een verhoging of verlaging van de SERP-ranking zouden rechtvaardigen. Desalniettemin is onze zorg hier hoe verhoudt dit nieuwe SMITH-algoritme zich tot BERT?

In het door Google gepubliceerde artikel beweerden ze dat SMITH beter presteert dan BERT bij het begrijpen van lange zoekopdrachten en lange documenten. Wat SMITH zo interessant maakt, is dat het passages in een document kan begrijpen die vergelijkbaar zijn met wat BERT doet met woorden en zinnen. Deze verbeterde functie van SMITH stelt het in staat om langere documenten gemakkelijk te begrijpen.

Maar voordat we verder gaan, moeten we u informeren dat SMITH vanaf nu niet leeft in de algoritmen van Google. Maar als onze speculaties kloppen, wordt het samen met passage-indexering gelanceerd, of het gaat eraan vooraf. Als je echt geïnteresseerd bent in het leren rangschikken op SEP, zou machine learning onvermijdelijk naast deze interesse gaan.

Dus terug naar het onderwerp: staat BERT op het punt te worden vervangen? Zullen de meeste documenten op internet die enorm, robuust en daarom langer zijn, niet beter presteren met SMITH?

Laten we verder gaan en kijken wat we hebben geconcludeerd. SMITH kan zowel robuuste als dunne documenten lezen. Zie het als een Bazooka. Het kan grote schade aanrichten doordat het ook deuren kan openen.

Om te beginnen, waarom BERT of SMITH?

De echte vraag hier is waarom een ​​zoekmachine natuurlijke leerverwerking nodig heeft om zoekresultaten te leveren. Het antwoord is simpel. Zoekmachines hebben NLP nodig bij hun overgang van zoekmachines die strings of trefwoorden begrijpen naar dingen of webpagina's.

Waar Google geen idee heeft, wat kan er anders op de pagina staan ​​dan de zoekwoorden of dat de inhoud die wordt geïndexeerd zelfs zinvol is in relatie tot de zoekopdracht. Dankzij NLP kan Google de context begrijpen van de tekens die in de zoekopdracht zijn getypt.
Dankzij NLP kan Google de bedoelingen van een gebruiker onderscheiden wanneer ze 'rivieroever' en 'bankrekening' zeggen. Het kan ook uitspraken als "Caroline ontmoette haar vrienden voor een drankje, een drankje, pint, bier, brouwsel ..." als onnatuurlijk opvatten.

Als experts in SEO moeten we zeggen dat het begrijpen van zoekopdrachten een lange weg heeft afgelegd. Best geloven dat het in het verleden buitengewoon moeilijk was om de juiste artikelen op internet te vinden.

BERT begrijpen

BERT functioneert momenteel als het beste NLP-model dat we hebben voor veel, zo niet de meeste, toepassingen, vooral als het gaat om het begrijpen van complexe taalstructuren. Velen beschouwen het eerste bidirectionele teken als de grootste sprong voorwaarts in dit algoritme. In plaats van een algoritme te hebben dat van links naar rechts leest, kan BERT de woorden ook begrijpen in relatie tot hun context. Op deze manier zou het geen resultaten opleveren voor de individuele woorden in de zoekopdracht, maar webpagina's indexeren op basis van de collectieve betekenis van woorden in de zoekopdracht.

Hier is een voorbeeld om uw begrip te vergemakkelijken:

EEN TRUCK HEEFT LICHT.

Als je die uitspraak van links naar rechts zou interpreteren, zou je bij het bereiken van het woord 'licht' de vrachtwagen classificeren als iets met licht. Dat komt omdat de vrachtwagen in de verklaring voor het licht kwam.

Maar als we dingen op vrachtwagens willen classificeren, kunnen we "licht" weglaten omdat we het niet eerder tegenkomen dan "vrachtwagen".

Het is moeilijk om de bewering in één richting te beschouwen.

Bovendien heeft BERT nog een ander geheim voordeel dat het zo opmerkelijk is, en het maakt het mogelijk om taal effectief te verwerken met lagere kosten voor middelen in vergelijking met de vorige modellen. Dat is inderdaad een belangrijke factor om te overwegen wanneer men het op het hele web wil toepassen.

De toepassing van tokens is nog een andere evolutie die BERT heeft vergezeld. Er zijn 30.000 tokens in BERT, en elk van deze vertegenwoordigt een gewoon woord met een paar extra tokens voor karakters en fragmenten voor het geval een woord buiten de 30.000 bestaat.

Door zijn vermogen om tokens en transformatoren te verwerken, begreep BERT de inhoud, waardoor het ook in staat was zinnen adequaat te begrijpen.

Dus als we zeggen: "de jongedame ging naar de oever. Ze zat later op de oever van de rivier en keek hoe de rivier stroomde".

BERT kent verschillende waarden toe aan die zinnen omdat ze naar twee verschillende dingen verwijzen.

SMITH begrijpen

Dan komt SMITH, een algoritme met betere bronnen en getallen om te gebruiken voor het verwerken van grotere documenten. BERT gebruikt ongeveer 256 tokens per document, en wanneer het deze drempel overschrijdt, worden de computerkosten te hoog voor een optimale werking. Daarentegen kan SMITH tot 2.248 tokens per document verwerken. Dat is ongeveer 8x het aantal token dat BERT gebruikt.

Om te begrijpen waarom de rekenkosten stijgen in een enkel NLP-model, moeten we eerst overwegen wat er nodig is om een ​​zin en een alinea te begrijpen. Als het om een ​​zin gaat, is er maar één algemeen concept dat moet worden begrepen. Er zijn minder woorden die met elkaar te maken hebben, dus minder verbanden tussen woorden en de ideeën die ze in het geheugen bewaren.

Door van zinnen alinea's te maken, wordt het verband tussen deze woorden enorm vermenigvuldigd. Verwerkt 8X de tekst zal met hetzelfde model vele malen meer snelheid en geheugenoptimalisatiecapaciteit nodig hebben. Dit is waar SMITH het verschil maakt door in feite batches te maken en veel offline te verwerken. Interessant genoeg is SMITH nog steeds afhankelijk van BERT om goed te functioneren.

Hier is een beschrijving van hoe SMITH een document tot de kern neemt:
  1. Het verdeelt het document eerst in groeperingsgroottes die gemakkelijker te beheren zijn.
  2. Het verwerkt vervolgens elk blok zinnen afzonderlijk.
  3. Een transformator leert dan een contextuele weergave van elk blok, waarna hij ze omzet in een documentweergave.

Hoe werkt SMITH?

Om het SMITH-model te trainen, leren we op twee manieren van BERT:

Om BERT te trainen, wordt een woord uit een zin gehaald en worden alternatieve opties aangeboden

De BERT, die beter is opgeleid, is degene die succesvoller zal zijn in het kiezen van de juiste optie uit de aangeboden alternatieven. Als BERT bijvoorbeeld de zin krijgt:

De vrolijke bruine ------ sprong over de houten schutting.
  • Optie één - tomaten.
  • Optie twee - hond.
Hoe beter de BERT is opgeleid, hoe groter de kans dat hij de juiste optie kiest, namelijk optie twee.

Deze trainingsmethode wordt ook in SMITH toegepast.

SMITH is opgeleid voor grote documenten

Hoe beter SMITH is opgeleid, hoe beter zijn kansen om weggelaten zinnen te herkennen. Het is hetzelfde idee met BERT maar een andere applicatie. Dit deel is vooral interessant omdat het een wereld schetst met door Google gegenereerde inhoud die is samengevoegd tot ommuurde resultatenpagina's van zoekmachines. Gebruikers kunnen natuurlijk weggaan, maar dat doen ze niet omdat Google korte en lange inhoud van alle beste bronnen op de resultatenpagina kan samenvoegen.

Als je twijfelt of dit gebeurt, moet je weten dat het al is begonnen, en ook al hebben ze het nog niet onder de knie, het is een begin.

Is SMITH beter dan BERT?

Met alles wat je hebt gelezen, is het volkomen normaal om aan te nemen dat SMITH beter is, en bij veel taken is het ook echt beter. Maar bedenk eens hoe u internet gebruikt; welke vragen voert u regelmatig in bij zoekopdrachten?
  • "Wat is de weersvoorspelling voor vandaag?"
  • "Routebeschrijving naar een restaurant".
Het beantwoorden van dergelijke zoekopdrachten vereist meestal korte inhoud, vaak met beperkte en ongecompliceerde gegevens. SMITH is meer betrokken bij het begrijpen van langere en complexere documenten en lange en complexe zoekopdrachten.

Dit omvat het samenvoegen van verschillende documenten en onderwerpen om hun antwoorden te creëren. Het bepaalt hoe inhoud kan worden opgesplitst, zodat Google weet wat het juiste is om weer te geven. Het zal Google helpen begrijpen hoe de pagina's met inhoud aan elkaar gerelateerd zijn, en het biedt een schaal waarop links kunnen worden gewaardeerd naast andere voordelen.

Met dat gezegd zijnde, besluiten we door te zeggen dat zowel BERT als SMITH belangrijk zijn, en ze dienen allebei hun unieke doel.

Gevolgtrekking

Hoewel SMITH de bazooka is, hebben we het nodig om een ​​duidelijk beeld te schetsen van hoe de dingen collectief zijn. In middelen kost het meer omdat het een grotere klus doet, maar het kost veel minder dan BERT bij hetzelfde werk.

BERT helpt SMITH bij het begrijpen van korte vragen en kleine stukjes inhoud. Dit is echter totdat Google een ander NLP-algoritme ontwikkelt dat beide zal vervangen, en dan zullen we verder gaan en weer een nieuwe vooruitgang in SEO inhalen.

Geïnteresseerd in SEO? Bekijk onze andere artikelen over de Semalt blog