Categories
SEO

Google Kelm reduce el sesgo y mejora la precisión objetiva.

El blog de Google AI anunció Kelm, una forma que podría usarse para reducir el sesgo y el contenido tóxico en la búsqueda ( Contestación de preguntas de dominio abierto ). Utiliza un método llamado Tekgen para convertir los hechos de los gráficos de conocimiento en el texto de lenguaje natural que se pueden usar para mejorar los modelos de procesamiento de lenguaje natural.

¿Qué es Kelm?

Kelm es un acrónimo para el conocimiento- Modelo de lenguaje mejorado Pre-entrenamiento. Los modelos de procesamiento de lenguaje natural como BERT se capacitan típicamente en web y otros documentos. Kelm propone agregar contenido fáctico confiable (, mejorado en el conocimiento ) al modelo de lenguaje pre-entrenamiento para mejorar la precisión de los hechos y reducir el sesgo.

KELM TEKGEn TEKGEN convierte los datos estructurados del gráfico del conocimiento al lenguaje natural. Texto conocido como el Kelm Corpus KELM TEKGEn

Kelm utiliza datos confiables

Los investigadores de Google propusieron utilizando gráficos de conocimiento para mejorar la precisión objetiva porque son una fuente de datos de confianza.

AnuncioContinue leyendo a continuación

“Fuentes alternativas de fuentes de Las informaciones son gráficas de conocimiento (kgs), que consisten en datos estructurados. KGS es de naturaleza como la naturaleza porque la información generalmente se extrae de fuentes más confiables, y los filtros de posprocesamiento y los editores humanos aseguran que se eliminen el contenido inapropiado e incorrecto. “

¿Google usa Kelm?

Google no ha indicado si Kelm está en uso o no. Kelm es un enfoque del modelo de lenguaje pre-entrenamiento que muestra una promesa sólida y se resumió en el blog de Google AI.

sesgo, precisión fáctica y resultados de búsqueda

acordeNG Para el documento de investigación, este enfoque mejora la precisión objetiva:

“Lleva las ventajas adicionales de la precisión fáctica mejorada y reduce la toxicidad en el modelo de lenguaje resultante”.

este La investigación es importante porque la reducción del sesgo y la creciente precisión objetiva

podría

impactar cómo se clasifican los sitios.

, pero hasta que se ponga en uso Kelm, no hay manera de predecir qué tipo de impacto tendría.

Google no es actualmente, haz, verifique los resultados de la búsqueda.

Kelm, en caso de que se introduzca, podría tener un impacto en los sitios que promueven declaraciones e ideas incorrectas.

AnuncioContinue leyendo a continuación.

Kelm podría impactar más de la búsqueda

El Kelm Corpus ha sido lanzado bajo licencias de Creative CommonsE ( CC BY-SA 2.0

).

Eso significa, en teoría

, cualquier otra compañía (como Bing, Facebook o Twitter) puede usarla para mejorar su Procesamiento de lenguaje natural Precapacenamiento también.

Es posible

posibles

entonces que la influencia de Kelm podría extenderse a través de muchas plataformas de búsqueda y redes sociales.

Lazos indirectos a mamá

Google también ha indicado que el algoritmo de la madre de próxima generación no se lanzará hasta que Google esté satisfecho de que el sesgo no afecta negativamente las respuestas que le da.

Según el anuncio de Google Mum. :

“Justo cuando hemos probado cuidadosamente las muchas aplicaciones de BERT lanzadas desde 2019, MMA se someterá al mismo proceso a medida que aplicamos estos modelos en la búsqueda.

Específicamente, Buscaremos PatteRNS que puede indicar el sesgo en el aprendizaje de la máquina para evitar introducir el sesgo en nuestros sistemas “.

El enfoque de Kelm se dirige específicamente a la reducción de sesgos, lo que podría hacerlo valioso para desarrollar el algoritmo de la mamá.

El aprendizaje de la máquina puede generar resultados sesgados

El documento de investigación establece que los datos que modelos de lenguaje natural como el uso de BERT y GPT-3 para la capacitación pueden resultar en “

contenido tóxico

” y sesgos.

En la computación hay un acrónimo antiguo, Gigo que representa la basura en la basura. Eso significa que la calidad de la salida está determinada por la calidad de la entrada.

Si lo que está entrenando el algoritmo con es alta calidad, el resultado será de alta calidad.

Lo que proponen los investigadores es mejorar el Quali.Ty de los datos que tecnologías como BERT y MMA están capacitados para eliminar los sesgos. Gráfico de conocimiento

El gráfico de conocimientos es una colección de hechos en un formato de datos estructurados. Los datos estructurados son un lenguaje de marcado que comunica información específica de una manera fácilmente consumida por las máquinas.

En este caso, la información es información sobre las personas, los lugares y las cosas.

El conocimiento de Google. El gráfico se introdujo en 2012

como una forma de ayudar a Google a comprender las relaciones entre las cosas. Entonces, cuando alguien pregunta sobre Washington, Google podría discernir si la persona que hace la pregunta estaba preguntando sobre Washington a la persona, el estado o el distrito de Columbia.

AnunciCementContinue leyendo a continuación

El Gráfico de Conocimiento de Google fue anuncioEd se comportará de datos de fuentes de confianza de hechos.

El anuncio de Google 2012 caracterizó el gráfico de conocimiento como un primer paso hacia la construcción de la próxima generación de búsqueda, que actualmente estamos disfrutando. Conocimiento Gráfico y precisión fáctica

Los datos del gráfico de conocimiento se utilizan en este documento de investigación para mejorar los algoritmos de Google porque la información es confiable y confiable.

El documento de Google Research propone integrar la información del gráfico de conocimientos en el proceso de capacitación. Para eliminar los sesgos y aumentar la precisión objetiva.

Lo que propone la investigación de Google es dos pliegues.

Primero, necesitan convertir las bases de conocimiento en texto de lenguaje natural. Segunda vez el resultado. Corpus, llamado Modelo de lenguaje mejorado en el conocimiento previoEning (Kelm), se puede integrar en el algoritmo pre-entrenamiento para reducir los sesgos.

Los investigadores explican el problema como este:

“Grandes entrenados previamente entrenados Los modelos de procesamiento de lenguaje natural (PNL), como Bert, Roberta, GPT-3, T5 y Realm, aprovechan las cuerpas de lenguaje natural que se derivan de la Web y el ajuste fino en los datos específicos de la tarea …

Sin embargo, naturales El texto del idioma solo representa una cobertura limitada del conocimiento … Además, la existencia de información no factual y el contenido tóxico en texto puede eventualmente causar sesgos en los modelos resultantes “. advertisementcontinue Lectura a continuación

de los datos estructurados del gráfico de conocimiento al texto del lenguaje natural

Los investigadores afirman que un problema con la integración de la información de la base de conocimiento en la Tllover es que los datos de la base de conocimiento se encuentran en forma de datos estructurados. La solución es convertir el gráfico de conocimientos los datos estructurados en el texto de lenguaje natural utilizando una tarea de lenguaje natural llamado, generación de datos a texto. explicaron que debido a que la generación de datos a texto es un desafío, crearon lo que llamaron un nuevo “ Pipeline

” llamado “

texto de KG Generator (Tekgen)

“Para resolver el problema.

Cita:

Generación de corpus sintética basada en gráfico de conocimiento para el modelo de lenguaje mejorado por el conocimiento (PDF)

Tekgen Natural Language Text Mejor Precisión objetiva

TEKGEN es la tecnología que los investigadores crearon para convertir datos estructurados al texto de lenguaje natural. Es este resultado final, factu.Al texto, que se puede usar para crear el Kelm Corpus, que luego se puede usar como parte de la capacitación previa a la máquina de aprendizaje de la máquina para ayudar a evitar que el sesgo se convierta en algoritmos.

Los investigadores señalaron que agregó este conocimiento adicional. La información del gráfico (cuerpos) en los datos de capacitación dio como resultado una mejor precisión objetiva.

AnuncioContinue Lectura a continuación

El papel Tekgen / Kelm establece:

“Mostramos más adelante que verbalizó un kg integral y enciclopédico como Wikidata se puede usar para integrar kgs estructurados y cuerpos de lenguaje natural.

… Nuestro enfoque convierte el kg en texto natural, lo que le permite integrarse a la perfección en los modelos de idioma existentes. Lleva las ventajas adicionales de una mejor precisión objetiva y la reducción de la toxicidad en ele Modelo de idioma resultante “.

Google KELM Concatenation El artículo de Kelm publicó una ilustración que muestra cómo se concatena un nodo de datos estructurado y luego se convierte desde allí a texto natural (verbalizado).

Rompí el Ilustración en dos partes. Google KELM Concatenation

A continuación se muestra una imagen que representa un gráfico de conocimiento de datos estructurados. Los datos se concatenan al texto.

Captura de pantalla de la primera parte del proceso de conversión de Tekgen

Google KELM Verbalized Knowledge Graph Data

Google KELM Verbalized Knowledge Graph Data

La imagen de abajo representa la siguiente etapa del proceso de Tekgen que toma el texto concatenado y lo convierte en un texto de lenguaje natural.

AnunciCementContinue Lectura a continuación Captura de pantalla del texto se convirtió en texto de lenguaje natural

How TEKGEN works

How TEKGEN works

Generando el Kelm Corpus

Hay unaOtra ilustración que muestra cómo se genera el texto del lenguaje natural del kelm que se puede usar para la pre-entrenamiento.

El papel Tekgen muestra esta ilustración Plus Descripción:

“En el Paso 1, Kg Triples suponen con el texto de Wikipedia utilizando una supervisión distante. En los pasos 2 y 3, T5 está ajustado secuencialmente primero en este cuerpo, seguido de Una pequeña cantidad de pasos en el WEBNLG Corpus, en el Paso 4, Bert está ajustado para generar un puntaje de calidad semántica para oraciones generadas WRT Triples.Steps 2, 3 y 4 juntos Formulario Tekgen. Para generar el Kelm Corpus, en el Paso 5, los Subgrafos de entidades se crean utilizando los recuentos de alineación de pares de relación del cuerpo de capacitación generado en el Paso 1.

Los triples subgraficos se convierten. en texto naturalUsando Tekgen “.

PublicidadContinue La lectura a continuación

Kelm trabaja para reducir el sesgo y promover la precisión

El artículo de Kelm publicado en el blog AI de Google afirma que Kelm tiene aplicaciones del mundo real, en particular para las tareas de respuestas a la pregunta que están explícitamente relacionados con la recuperación de la información (búsqueda) y el procesamiento de idiomas naturales (tecnologías como BERT y MMA).

Google investiga muchas cosas, algunas de las cuales parecen ser exploraciones sobre lo que es posible, pero de lo contrario parecen extremas muertos . La investigación que probablemente no lo convertirá en el algoritmo de Google generalmente concluye con una declaración de que se necesita más investigación porque la tecnología no cumple con las expectativas de una forma u otra.
, pero ese no es el caso con el kelm. y la investigación de Tekgen. El artículo está enHecho optimista sobre la aplicación del mundo real de los descubrimientos. Eso tiende a darle una mayor probabilidad de que Kelm eventualmente lo haga en busca de una forma u otra.

Así que los investigadores concluyeron el artículo sobre Kelm para reducir el sesgo:
“Esto tiene aplicaciones en el mundo real para tareas intensivas en el conocimiento, como las respuestas a la pregunta, donde es esencial proporcionar conocimiento fáctico. Además, dichos corporadores se pueden aplicar en pre-capacitación de modelos de grandes idiomas, y potencialmente pueden reducir la toxicidad y mejorar la factualidad “.

AnuncioContinue La lectura a continuación ¿Se utilizará kelm pronto?

El anuncio reciente de Google del algoritmo de mamá requiere precisión, algo que se creó el Kelm Corpus. Pero la aplicación de Kelm esNo se limita a mamá. El hecho de reducir el sesgo y la precisión fáctica es una preocupación crítica en la sociedad hoy y que los investigadores son optimistas sobre los resultados tienden a darle una mayor probabilidad de ser utilizado de alguna forma en algún formulario en el Futuro en la búsqueda. Citas Artículo de Google AI sobre Kelm Kelm: Integración de gráficos de conocimiento con modelo de lenguaje Pre-entrenamiento CORPORA PAPEL DE INVESTIGACIÓN DE KELM (PDF) Generación de corpus sintéticos basados ​​en gráfico de conocimiento para el modelo de lenguaje mejorado en el conocimiento TEKGEN TRAINING CORPUS EN GITHUB

Leave a Reply

Your email address will not be published. Required fields are marked *