Categories
Noticias

Bing lanza una corrección de ortografía a gran escala en todo el mundo

Los modelos de corrección multilingüe multilingüe de la ortografía a gran escala de Microsoft Bing, se llama colectivamente Speller100, se están implementando en todo el mundo con alta precisión y alta recuperación en idiomas de 100-PLUS.

Bing dice que aproximadamente el 15% de las consultas enviadas por los usuarios tienen Misspellings, que puede llevar a respuestas incorrectas y resultados de búsqueda subóptimos.

Para abordar este problema, Bing ha construido lo que dice es el sistema de corrección de ortografía más completo jamás realizado.

en A / B Consultas de prueba con y sin Speller100, Bing observó los siguientes resultados:

El número de páginas sin resultados reducidos en hasta un 30%. El número de veces que los usuarios tuvieron que reformular manualmente su consulta reducida en un 5%. El número de veces. Los usuarios hicieron clic en la sugerencia de ortografía aumentada a partir de un solo dígito al 67%. El númeroLos usuarios de Ber of Times seleccionados en cualquier artículo en la página pasó de un solo dígito a 70%.

¿Cómo logró Bing? Sigue leyendo para aprender más sobre Speller100.

Mejora de la corrección de la ortografía en los resultados de búsqueda de Bing

La corrección de ortografía ha sido durante mucho tiempo una prioridad para Bing, y el motor de búsqueda lo está tomando un paso más con la inclusión. De más idiomas de todo el mundo.

“Para que Bing sea más inclusivo, nos propusimos expandir nuestro servicio de corrección de ortografía actual a 100-PLUS, configurando la misma barra alta para que Establecimos para las dos docenas de idiomas originales “.

AnunciCementContinue Lectura a continuación

El lanzamiento de Speller100 representa un paso significativo para Bing y se hace posible debido a los avances recientes en AI.

La tecnología detrás de Speller100 se explica en la reciente publicación del blog de la compañía. Aquí hay algunos detalles clave de la nueva tecnología de corrección de ortografía de Bing.

Tecnología Speller100 de Microsoft Bing Bing Credits

Aprendizaje de disparo cero

Como un importante avance en la AI que ayuda a hacer Speller100 posible.

Aprendizaje de disparo a cero permite que un modelo AI aprenda con precisión y corrija la ortografía sin ningún dato de capacitación con etiquetado específico del idioma adicional. Esto contrasta con las soluciones de corrección de ortografía tradicionales que se han basado únicamente en los datos de capacitación para aprender la ortografía de un idioma.

Confiando en los datos de capacitación es desafiante cuando se trata de corregir la ortografía de los idiomas donde hay una cantidad inadecuada de datos. Ese es el problema de Zero-shotEl aprendizaje está diseñado para resolver.

“Imagina que alguien le había enseñado a hechizar en inglés y aprendiste automáticamente a Spell en alemán, holandés, afrikaans, escoceses y luxemburgués.

Que

es lo que habilita el aprendizaje de shot-shot, y es un componente clave en Speller100 que nos permite expandirnos a los idiomas con muy poco a ningún dato “. AnuncioContinue leyendo a continuación

La corrección de la ortografía no es el procesamiento natural del lenguaje

Bing hace que la distinción sea la distinción que, aunque se han realizado avances significativos en el procesamiento de lenguaje natural, la corrección de ortografía es una tarea diferente por completo. Todos los errores de ortografía se pueden clasificar en dos tipos:

Error sin palabra

: ocurre cuando la palabra no está en el vocabulario para AGIdioma.

Error de la palabra real

: ocurre cuando la palabra es válida pero no se ajusta al contexto más grande.

Bing ha desarrollado un enfoque de aprendizaje profundo para corregir estos errores de ortografía que está inspirado en el de Facebook. Modelo BART. Sin embargo, difiere de Bart en esa corrección de ortografía se enmarca como un problema de nivel de carácter.

Para abordar un problema de nivel de carácter, el modelo Speller100 de Bing se entrena con mutaciones a nivel de carácter que imitan los errores de ortografía.

Bing llama a estas “funciones de ruido”:

“Hemos diseñado funciones de ruido para generar errores comunes de rotación, inserción, eliminación y reemplazo.

el El uso de una función de ruido redujo significativamente nuestra demanda de anotaciones etiquetadas por humanos, que a menudo se requieren en la máquina de aprendizaje.ng. Esto es bastante útil para los idiomas para los cuales tenemos poca o ninguna información de entrenamiento “.

Las funciones de ruido permiten a Bing para entrenar a Speller100 para corregir la ortografía de los idiomas para los cuales no hay una gran cantidad de consulta de mal escrito. Datos disponibles.

En su lugar, Bing lo hace con el texto regular extraído de las páginas web que se recopilan a través de la web regular. Se dice que es una cantidad suficiente de texto en la web para facilitar la capacitación de cientos de idiomas.

“Esta tarea de pretenamiento demuestra ser un primer paso sólido para resolver la corrección de ortografía multilingüe para 100-PLUS idiomas. Ayuda a alcanzar el 50% del recuerdo de corrección para los mejores candidatos en idiomas para los cuales tenemos cero datos de entrenamiento “.

Mientras que este es un avance significativo, Bingdice que el 50% del retiro no es lo suficientemente bueno. Ahí es donde entra el aprendizaje de tiro a cero.

Para los idiomas sin datos de capacitación, Bing utiliza la propiedad de aprendizaje de disparo cero para dirigir a las familias de idiomas. Esto se hace basado en la idea de que la mayoría de los idiomas del mundo se sabe que están relacionados con otros.

AnuncioContinue leyendo a continuación

“Esta similitud ortográfica, morfológica y semántica entre idiomas en el mismo grupo hace una Modelo de error de aprendizaje de disparo cero Muy eficiente y efectivo … El aprendizaje de tiro a cero hace posible la predicción de la ortografía por estos idiomas de bajo recurso o sin recursos “.

Lanzamiento de Speller100 en Bing es el primer paso en un esfuerzo mayor para implementar la tecnología en productos de Microsoft. Fuente: MICMicrosoft Research Blog

Leave a Reply

Your email address will not be published. Required fields are marked *