Categories
Noticias

El algoritmo Smith de Google supera a Bert

Google publicó recientemente un documento de investigación sobre un nuevo algoritmo llamado Smith que reclama a superar BERT para comprender las consultas largas y los documentos largos. En particular, lo que hace que este nuevo modelo sea mejor es que es capaz de comprender los pasajes dentro de los documentos de la misma manera que BERT entiende las palabras y las oraciones, lo que permite que el algoritmo comprenda documentos más largos.

El 3 de noviembre, 2020 leí sobre un algoritmo de Google llamado Smith que afirma superar a Bert. Lo discutí brevemente el 25 de noviembre en el episodio 395 del podcast SEO 101 a fines de noviembre.

He estado esperando hasta que tuve un tiempo para escribir un resumen de él porque Smith parece ser un algoritmo importante y Mereció un escrito reflexivo, que intenté humildemente.

Así que aquí es, espero que lo disfrutes y, por favor, comparte este artículo.

¿Google está usando el algoritmo Smith?

Google generalmente no dice qué Algoritmos específicos que está utilizando. Aunque los investigadores dicen que este algoritmo supera a Bert, hasta que Google establece formalmente que el algoritmo de Smith está en uso para comprender los pasajes dentro de las páginas web, es puramente especulativa decir si está en uso.

AnunciCementContinue leyendo a continuación

¿Qué es el algoritmo de Smith?

Smith es un nuevo modelo para tratar de comprender los documentos completos. Modelos como BERT están capacitados para entender las palabras dentro del contexto de las oraciones.

En una descripción muy simplificada, el modelo Smith está capacitado para comprender los pasajes en el contexto de toda la DOcument.

Mientras que los algoritmos como BERT están capacitados en conjuntos de datos para predecir las palabras ocultas al azar son del contexto dentro del contexto dentro de las oraciones, el algoritmo de Smith está capacitado para predecir cuál es el siguiente bloque de oraciones.

Este tipo de capacitación ayuda al algoritmo a comprender los documentos más grandes mejor que el algoritmo de Bert, según los investigadores.

Bert Algorithm tiene limitaciones

Así es como presentan las deficiencias de Bert:

“En los últimos años, modelos basados ​​en autosencia como transformadores … y Bert … han logrado el desempeño de vanguardia en la tarea de la coincidencia de texto. Estos modelos, sin embargo, todavía están limitados a texto corto como unas pocas oraciones o un párrafo debido a la complejidad computacional cuadrática de la atención automática con RESPECTAR PARA INPUT La longitud del texto.

En este documento, abordamos el problema proponiendo el codificador jerárquico (SMITH) basado en el transformador de profundidad múltiple Siamese para la coincidencia de documentos de forma larga. Nuestro modelo contiene varias innovaciones para adaptar los modelos de autocuidado para la entrada de texto más larga “.

AnuncioContinue Lectura a continuación

Según los investigadores, el algoritmo Bert se limita a comprender los documentos cortos. Por una variedad de razones explicadas en el documento de investigación, BERT no es adecuado para comprender los documentos de forma larga.

Los investigadores proponen su nuevo algoritmo que dicen que superan a Bert con documentos más largos.

Luego explican por qué los documentos largos son difíciles:

“… La coincidencia semántica entre textos largos es un más desafianteTarea debido a algunas razones:

1) Cuando ambos textos son largos, coincidan con ellos requiere una comprensión más completa de las relaciones semánticas, incluido el patrón de coincidencia entre los fragmentos de texto con larga distancia;

2) Los documentos contienen estructura interna como secciones, pasajes y oraciones. Para los lectores humanos, la estructura de documentos generalmente desempeña un papel clave para la comprensión del contenido. De manera similar, un modelo también debe tomar en cuenta la información de la estructura de documentos para un mejor desempeño de coincidencia de documentos;

3) es más probable que el procesamiento de textos largos es más probable que desencadenar problemas prácticos como fuera de las memorias de TPU / GPU sin un diseño de modelo TPU / GPU . “

Texto de entrada más grande

BERT está limitado a la cantidad de documentos que pueden ser. Smith, como lo verás más abajo, realiza BetteR cuanto más tiempo es el documento.

Esta es una deficiencia conocida con Bert.

Así es como lo explican:

” Los resultados experimentales en varios datos de referencia para la coincidencia de texto de forma larga … muestran que nuestro modelo Smith propuesto superó los modelos anteriores de vanguardia y aumenta la longitud máxima del texto de entrada de 512 a 2048 cuando se compara con las líneas de base basadas en BERT “.

Este hecho de Smith que puede hacer algo que Bert no puede hacer es lo que hace que el modelo Smith sea intrigante.

El modelo Smith no reemplaza a Bert. El modelo Smith complementa BERT haciendo el levantamiento pesado que Bert no puede hacer.

Los investigadores lo probaron y dijeron:

“Nuestro experimental Resultados en varios conjuntos de datos de referenciaPara una coincidencia de documentos de forma larga, muestran que nuestro modelo Smith propuesto superó los modelos de vanguardia anteriores, incluida la atención jerárquica …, una red de neuronal recurrente jerárquica a base de múltiples profundidades …, y Bert.

Comparando Para las líneas de base basadas en Bert, nuestro modelo puede aumentar la longitud máxima del texto de entrada de 512 a 2048 “.

Larga a largo juego

Si estoy entendiendo correctamente el documento de investigación, el El documento de investigación establece que el problema de combinar las consultas largas a largo contenido no se ha explorado adecuadamente.

AnunciCementContinue leyendo a continuación

Según los investigadores:

” A lo mejor de nuestro conocimiento, la coincidencia semántica entre pares de documentos largos, que tiene muchas aplicaciones importantes como las noticias recomendadasNdation, la recomendación de artículos relacionados y la agrupación de documentos, se explora menos y necesita más esfuerzo de investigación “.

Más adelante en el documento, afirman que ha habido algunos estudios que se acercan a lo que están investigando.

Pero en general parece haber una brecha en la investigación de formas de igualar las consultas largas para los documentos largos. Ese es el problema que los investigadores están resolviendo con el algoritmo Smith.

Detalles de Smith de Google

No voy a profundizar en los detalles del algoritmo, pero elegiré algunas características generales que Comunique una vista de alto nivel de lo que es.

El documento explica que usan un modelo de pre-entrenamiento similar a BERT y muchos otros algoritmos

.

Primero primero Una pequeña información de fondo para el documento.Tiene más sentido. Capacitación previa al algoritmo

La capacitación previa es donde se capacita un algoritmo en un conjunto de datos. Para la formación previa típica de este tipo de algoritmos, los ingenieros enmascarán (Ocultar) palabras aleatorias dentro de las oraciones. El algoritmo intenta predecir las palabras enmascaradas.

AnunciCementContinue Lectura a continuación

Como ejemplo, si se escribe una oración, “

, McDonald anterior tenía un ____,

” el algoritmo cuando estaba completamente capacitado podría predecir , “

Farm ” es la palabra que falta.

A medida que el algoritmo aprende, eventualmente se optimiza para obtener menos errores en los datos de capacitación.

El pre-entrenamiento es Hecho con el propósito de capacitar a la máquina para que la máquina sea precisa y cometa menos errores.

Aquí está lo que dice el documento:

“Inspirado por el reCENTRO ÉXITO DEL MODELO DE LENGUAJE MODELOS DE COMPRENSACIÓN MODELO LIBRICADOS A BERT, SMITH también adopta el “

pre-entrenamiento previo sin supervisión +” paradigma para la capacitación modelo.

para el modelo Smith pre- Capacitación, proponemos la tarea de modelado de lenguaje de bloqueo de oraciones enmascaradas, además de la tarea de modelado de lenguaje de palabras enmascarado original utilizado en BERT para entradas de texto largas “.

Los bloques de oraciones están ocultas en pre-entrenamiento

Aquí es donde los investigadores explican una parte clave del algoritmo, cómo se utilizan las relaciones entre los bloques de oraciones en un documento para comprender de qué se trata un documento durante el proceso de pre-entrenamiento.

advertisementcontinue leyendo a continuación

“Cuando el texto de entrada se vuelve largo, ambas relaciones entre las palabras en un bloque de oraciones y relaciones entreLos bloques de oraciones dentro de un documento se vuelven importantes para la comprensión de contenido.

Por lo tanto, enmascaramos tanto las palabras y los bloques de oraciones seleccionados al azar durante el modelo de entrenamiento. “

Los investigadores siguiente describen en más Detalle cómo este algoritmo va más allá y más allá del algoritmo de Bert.

Lo que están haciendo es intensificar la capacitación para ir más allá de la capacitación de la palabra para asumir bloques de oraciones.

Cómo se describe en el documento de investigación:

“Además de la tarea de predicción de la palabra enmascarada en Bert, proponemos la tarea de predicción de bloques de oraciones enmascaradas para aprender las relaciones entre los diferentes bloques de oraciones. “

El algoritmo de Smith está entrenado para predecir bloques de oraciones. Mi sentimiento personal sobre eso es … eso es bonitofresco.

Este algoritmo está aprendiendo las relaciones entre las palabras y luego se nivela para aprender el contexto de los bloques de oraciones y cómo se relacionan entre sí en un documento largo.

AnuncioContinue leyendo a continuación

leyendo 4.2.2, titulado, “predicción de bloques de oraciones enmascaradas” proporciona más detalles sobre el proceso (papel de investigación vinculado a continuación).

Resultados de las pruebas de Smith

Los investigadores señalaron que Smith hace mejor con más tiempo. Documentos de texto.

“El modelo Smith que disfruta de las longitudes de texto de entrada más largas en comparación con otros modelos de autosencia estándar es una mejor opción para el aprendizaje y la coincidencia de representación de documentos largos”.

Al final, los investigadores concluyeron que el algoritmo de Smith lo hace mejor que Bert para documentos largos.

¿Por qué el documento de investigación de Smith es importante

una de las razones por las que prefiero leer los documentos de investigación sobre patentes es que los documentos de investigación comparten los detalles de si el modelo propuesto hace mejor que los modelos existentes y de estado de la técnica

Muchos documentos de investigación concluyen diciendo que se necesita hacer más trabajo. Para mí, eso significa que el experimento del algoritmo es prometedor, pero es probable que no se lleve a cabo en un entorno en vivo.

Un porcentaje menor de los documentos de investigación dice que los resultados superan el estado de la técnica. Estos son los documentos de investigación que, en mi opinión, vale la pena prestar atención porque son probáticamente que lo conviertan en el algoritmo de Google.

AnunciCementContinue leyendo a continuación Cuando digo probablemente, no quiero decir que el algoritmo sea o lo hará. estar en El algoritmo de Google

. Lo que quiero decir es que, en relación con otros experimentos de algoritmos, los documentos de investigación que afirman superar el estado de la técnica tienen más probabilidades de hacerlo en el algoritmo de Google. Smith superó a Bert para documentos de forma larga De acuerdo con las conclusiones alcanzadas en el documento de investigación, el modelo Smith supera a muchos modelos, incluidos Bert, para comprender el contenido largo. “Los resultados experimentales en varios conjuntos de datos de referencia muestran que nuestro modelo de Smith propuesto superó los modelos de coincidencia siamés de vanguardia anteriores, incluidos Han, Smash y Bert para una coincidencia de documentos de forma larga. Por otra parte, nuestra El modelo propuesto aumenta la longitud máxima del texto de entrada de 512 a 2048 en comparación con la línea de base basada en BERT.HODS “. ¿Es Smith en uso? Como se escribe antes, hasta que Google afirma explícitamente que están utilizando Smith, no hay manera de decir con precisión que el modelo Smith está en uso en Google . Dicho esto, los documentos de investigación que no son probables son los que establecen explícitamente que los hallazgos son un primer paso hacia un nuevo tipo de algoritmo y que se necesita más investigación. advertisementcontinue leyendo a continuación Este no es el caso de este documento de investigación. Los autores de investigación de investigación afirman con confianza que Smith supera al estado de la técnica por comprender el contenido de forma larga. que la confianza en los resultados y la falta de una declaración de que se necesita más investigación hace que este documento sea más interesante que otros. y por lo tanto vale la pena conocerlo en caso de que se pongaDoblado en el algoritmo de Google en algún momento en el futuro o en el presente. Cita Lea el documento de investigación original: Descripción del algoritmo Smith Descargue el documento de investigación PDF de Smith Algorithm PDF: Más allá de 512 fichas: codificador jerárquico basado en transformadores de profundidad múltiple Siamese para la coincidencia de documentos de forma larga (PDF)

Leave a Reply

Your email address will not be published. Required fields are marked *