Categories
SEO

Google Bert vs Smith: cómo trabajan juntos

El mes pasado, aquí en la revista de buscadores, el autor Roger Montti cubrió el documento de investigación de Google en un nuevo algoritmo de procesamiento de lenguaje natural llamado Smith .

¿La conclusión? Que Smith supera a Bert para documentos largos.

Antes de zambullirnos, a partir de ahora,

Smith no está vivo en los algoritmos de Google . Si mis sentidos de Spidey están bien, sin embargo, se desplegará con la indexación de pasajes, o lo precediendo.

Los lectores regulares sabrán que tengo interés en el aprendizaje de la máquina, ya que se relaciona con la búsqueda, por lo que tuve que bucear en el documento de investigación para mí.

También tuve que Revisar algunos de los documentos de Bert

para envolver realmente mi cerebro sobre lo que estaba pasando.

¿Está a punto de ser reemplazado?

no son los documentos en la web T¿El sombrero no es un contenido delgado por lo tanto, y por lo tanto, mejor para Smith?

Lo llevaré a la conclusión primero.

Smith puede hacer ambos trabajos y un Bazooka puede abrir una puerta. Pero aún está mejor, trayendo su llave, en muchos casos.

AnunciCementContinue leyendo a continuación

¿Por qué Bert o Smith para comenzar con?

Lo que realmente estamos preguntando con esta pregunta es ¿Por qué un motor de búsqueda querría usar el procesamiento de lenguaje natural (PNL)?

La respuesta es bastante simple; La NLP asiste en la transición de los motores de búsqueda que comprenden las cadenas (palabras clave) a las cosas (entidades).

donde Google una vez no tuvo idea de qué más debería estar en una página que no sea la palabra clave, o si el contenido incluso tenía sentido , con PNL aprendió a comprender mejor el contexto de THe palabras.

El tono.

que “Cuenta bancaria” y “Riverbank” se refieren a diferentes bancos.

Que la oración, “Dave se reunió con Danny para Una cerveza, cervezas, pinta, vidrio, bebida, ale, cerveza … “no es natural.

Como profesional de SEO, extraño los viejos tiempos. Como alguien que necesita encontrar cosas. En Internet, no lo hago.

Ingrese a BERT BERT - machine learning

BERT es el mejor modelo de NLP actual que tenemos para muchos, si no la mayoría, aplicaciones, incluidas las estructuras de lenguaje complejas. BERT - machine learning El mayor salto hacia adelante con BERT

en mi opinión fue en el primer carácter, bidireccional.

En lugar de Simplemente “leyendo” de izquierda a derecha, también podría entender el contexto al revés.

AnuncioContinue RDebajo

Un ejemplo excesivamente simplificado podría estar a comprender la siguiente oración:

Un automóvil tiene luces.

Si puedes entender solo de izquierda a derecha, cuando golpeas la palabra “luces “Clasificaría el automóvil como algo que tiene luces porque ha encontrado la palabra automóvil antes de ella y podría hacer la asociación.

Pero, si querías clasificar las cosas en los automóviles, se pueden perder las luces porque No se habían encontrado antes del “automóvil”.

Es difícil aprender solo en una dirección.

Además, el “bajo la capucha” de BERT es notable y permite procesar el lenguaje de manera efectiva. con menores costos de recursos que los modelos anteriores, una consideración importante cuando uno quiere aplicarlo a toda la Web.

Un salto adicional FORWARD con BERT fue su aplicación de tokens.

En Bert, hay 30,000 fichas y cada una representa una palabra común con algunas sobras para fragmentos y caracteres en caso de que una palabra está fuera de los 30,000.

A través del procesamiento y transformadores de tokenos, la forma en que Bert pudo entender el contenido le dio la habilidad de que lo mencioné anteriormente, para entender que en la oración:

“El hombre fue al banco. Luego se sentó en la orilla del río “.

Los primeros y últimos instancias de” Banco “deben asignarse valores diferentes a medida que se refieren a diferentes cosas.

¿Qué pasa con Smith?

Así que ahora Smith Swaggers en, con mejores números y uso de recursos en el procesamiento de documentos grandes.

Bert elimina a 256 fichas por documento. Después de eso, el costo informático llega ao Alto para que sea funcional, y a menudo no lo es.

Smith, por otro lado, puede manejar 2,248 tokens. Los documentos pueden ser de 8 veces más grandes.

Para comprender por qué los costos informáticos aumentan en un solo modelo de PNL, simplemente necesitamos considerar lo que se necesita para entender una sentencia frente a un párrafo.

con Una oración, en general, solo hay un concepto principal para comprender, y relativamente pocas palabras, lo que significa pocas conexiones entre las palabras y las ideas para mantener en la memoria.

Haz que esa oración sea un párrafo y las conexiones se multiplican de manera exponencial.

Procesamiento 8x El texto realmente requiere muchas veces más veces que en la capacidad de velocidad y optimización de la memoria usando el mismo modelo.

AnunciCementContinue Lectura a continuación SMITH Smith se acerca a esto por lotes básicamente, y haciendo muchodel procesamiento fuera de línea.

Curiosamente, para que Smith funcione, aún se inclina en gran medida en Bert. SMITH En su núcleo, Smith toma un documento a través del siguiente proceso:

se rompe El documento en el tamaño de los tamaños puede manejar, favorecer las oraciones (es decir, si el documento asignaría 4.5 oraciones a un bloque en función de la longitud, se truncará eso a cuatro). Luego procesa cada bloque de oraciones individualmente. Un transformador y luego aprende el contextual. Representaciones de cada bloque y los convierte en una representación de documentos.

El

Diagrama del proceso

parece:

Puedes ver una similitud entre las cuatro filas inferiores y el proceso de BERT anterior. Después de eso, nos movemos a las representaciones a nivel de oraciones y transformamos que tNivel de documento OA.

AnuncioContinue leyendo a continuación

Un poco de tecnología lateral

Curiosamente, para entrenar al modelo Smith, tomamos de Bert de dos maneras:

1 . Para entrenar a Bert, tomarían una palabra de una oración y opciones de suministro.

El BERT mejor capacitado fue el más exitoso para elegir la opción correcta. Por ejemplo, podrían darle la oración: El _____ de color marrón rápido saltó sobre el perro perezoso.

Opción 1 – Lechuga

Opciones 2 – Fox

el Mejor capacitado, lo más probable es que pueda elegir la opción 2.

Este método de entrenamiento continúa con Smith, también.

2. Debido a que están entrenando para grandes documentos, también toman pasajes y eliminan oraciones. Google: New York SERP example

Cuanto más probable es que el sistema esté reconociendoE Omited Sentencia, mejor capacitada. Google: New York SERP example La misma idea, diferente aplicación.

Encuentro esta parte interesante como un SEO Pro, ya que pinta un mundo con el contenido generado de Google en paredes. en SERPS. Claro, el usuario puede irse, pero ¿por qué lo harían si Google pueda juntar el contenido de forma corta y larga de todas las mejores fuentes de un solo lugar? Ryerson: New York AnunciCementContinue leyendo a continuación

¿Piensa que no sucederá? Ya está empezando y parece: Ryerson: New York

aunque todavía lo están haciendo mal, como lo demuestra este ejemplo del sitio de Ryerson :

Esta siguiente etapa solo hará que sea menos descarado, simplemente estén arrancando el contenido.

Suena. Smith es mejor …

Seguro que suena como Smith Is mejor, ¿no?

y en muchas tareas, será.

AnunciCementContinue leyendo a continuación

, pero piensa en cómo usas Internet.

“¿Cuál es el clima?” “Juega una canción”. “Direcciones a un restaurante”.

Muchas consultas están satisfechas no solo con respuestas cortas, sino con datos limitados y, a menudo, no complicados.

donde Smith se involucra es entender mucho y complejo Documentos, y consultas largas y complejas. Esto incluirá la fragmentación de documentos y temas para crear sus propias respuestas. Esto incluirá la determinación de cómo se puede romper el contenido (Dare I Supongo … en los pasajes) para que Google sepa qué superficialmente. Ayudará a cada uno a comprender mejor cómo se relacionan las páginas del contenido relacionadas entre sí, cómo se pueden valorar los enlaces y más.

Por lo tanto, cada uno sirve un propósito.

Smith es la Bazlooka. Pintará la comprensión de cómo son las cosas. Es más costoso en recursos porque está haciendo un trabajo más grande, pero es mucho menos costoso que Bert a hacer ese trabajo.

AnunciCementContinue La lectura a continuación Bert ayudará a Smith a hacerlo, y ayudará a comprender las consultas cortas y los trozos de contenido. .

Es decir, hasta que ambos sean reemplazados, momento en el cual Moveremos otro salto hacia adelante y voy a apostar a que el siguiente algoritmo será: B Idirigido o


BECT-AGNOSTIC

R Transformador a base de egreson G Los dedos

Los nerds Star Trek como yo en la multitud obtendrán eso. & # 128521;

Más recursos: 5 maneras de construir una actualización del algoritmo de Google resistenteO Estrategia ¿Por qué y cómo rastrear las actualizaciones de Google Algorithm 10 Tendencias importantes de 2021 SEO que necesita saber Créditos de la imagen Todas las capturas de pantalla tomadas por el autor, de enero de 2020

Leave a Reply

Your email address will not be published. Required fields are marked *