Categories
SEO

Los modelos de lenguaje sesgados pueden resultar de datos de capacitación en Internet

El año pasado, Google anunció BERT , llamándolo el mayor cambio en su sistema de búsqueda en casi cinco años, y ahora, se alimenta casi todas las consultas basadas en inglés . Sin embargo, los modelos de lenguaje como BERT están capacitados en conjuntos de datos grandes, y existen riesgos potenciales asociados con los modelos de lenguaje en desarrollo de esta manera.

El investigador de AI Timnit Gebru La salida de Google está vinculada a estos temas, así como preocupaciones sobre cómo Los modelos de lenguaje sesgados pueden afectar la búsqueda tanto de comercializadores como para los usuarios.

Un investigador AI respetado y su salida de Google

que es. Antes de su partida de Google, Gebru fue mejor conocido por publicar un estudio innovador en 2018 que encontró que el software de análisis facial estaba mostrando una tasa de error de casi35% para mujeres de piel oscura, en comparación con menos del 1% para hombres de piel clara. También es una alumbre de laboratorio de inteligencia artificial de Stanford, abogar por la diversidad y la crítica de la falta de sus empleados en las compañías de tecnología, y un cofundador de Negro en AI, una organización sin fines de lucro dedicada a aumentar la presencia de personas negras en el campo AI. Fue reclutada por Google en 2018, con la promesa de la libertad académica total, convirtiéndose en el primer investigador femenino negro de la compañía, el Washington Post

informó

.

Por qué ya no trabaja en Google. Después de una disputa con Google sobre un papel, se coautó (“sobre los peligros de los loros estocásticos: ¿pueden ser modelos de lenguaje demasiado grandes?”) Discutir los posibles riesgos asociados con los modelos de capacitación de idiomas en grandes conjuntos de datos, GEBSe le informó que RU se le informó que su “renuncia” había sido acelerada, estaba de vacaciones en ese momento y se había promovido al acoplamiento del equipo ético de inteligencia artificial de la compañía con menos de dos meses antes.

en un público

Respuesta

Dije aquí están las condiciones. Si puede reunirse con ellos genial, me tomaré mi nombre de este documento, si no, puedo trabajar en una última fecha. Luego envió un correo electrónico a mis informes directos diciendo que ha aceptado mi renuncia. Así que eso es Google para ti. Lo viste suceder aquí.

– Timnit Gebru (@timnitgebru)

3 de diciembre de 2020

En una serie de Tweets , declaró “No había renunciado, primero había pedido condiciones simples”, elaborando que “dije aquí las condiciones. Si puede reunirse con ellos genial, me tomaré mi nombre de este documento, si no, puedo trabajar en una última fecha. Luego, ella [Gebru’s Skip-Level Manager] envió un correo electrónico a mis informes directos que dicen que ha aceptado mi renuncia “.

Cuando APProached para un comentario adicional, Google no tuvo nada más que agregar, en su lugar, señalando a la respuesta pública

de Dean y un nota

del CEO Sundar Pichai.

Aunque la naturaleza de su separación Desde Google se disputa, Gebru se encuentra ahora entre un número creciente de ex empleados de Google

que se han atrevido a disentir y enfrentar las consecuencias

. Su promoción para grupos y estatus marginados como un líder en ética AI y una de las pocas mujeres negras en el campo también ha llamado la atención sobre la diversidad, la igualdad y las prácticas de inclusión de Google. El papel de Gebru puede haber pintado un poco de papel. Imagen de la Tecnología de Google El documento de investigación, que aún no está disponible públicamente, presenta una visión general de los riesgos asociados con los modelos de lenguaje de capacitación utilizando grandes datosConjuntos.

El número ambiental.
Una de las preocupaciones de Gebru y sus coautores investigados fueron los costos ambientales potenciales, según la revisión
Technology MIT

. El documento de Gebru hace referencia a un documento de 2019 de Emma Strubell et al., Que encontró que entrenar un tipo particular de método de búsqueda de arquitectura neural habría producido 626,155 libras de equivalente de CO2, aproximadamente el mismo que 315 vuelos de ida y vuelta entre San Francisco y Nueva York.

Imagen: Revisión de tecnología MIT.

Las entradas sesgadas pueden producir modelos sesgados. Los modelos de idioma que usan datos de capacitación de Internet pueden contener lenguaje racista, sexista y fanáticos, que podrían manifestarse en lo que se usa el modelo de idioma, incluidos los algoritmos de búsqueda de motores de búsqueda. TSu aspecto del problema es lo que nos centraremos, ya que conlleva implicaciones potencialmente graves para los mercadólogos.

Los datos de capacitación sesgados pueden producir modelos de lenguaje sesgados

“Modelos de idioma capacitados desde el texto de Internet existente. En absoluto producir modelos sesgados, “Rangan Majumder, vicepresidente de Búsqueda y AI en Microsoft, dijo a la tierra del motor de búsqueda, y agregó” la forma en que muchos de estos modelos pre-entrenados están capacitados es a través de “enmascaramiento”, lo que significa que están aprendiendo los matices del idioma. necesario para rellenar los espacios en blanco del texto; El sesgo puede provenir de muchas cosas, pero los datos que están capacitándose es definitivamente uno de ellos “.

” Puedes ver los datos sesgados por ti mismo “, dijo Britney Muller , ex científico de SEO Senior en Moz. En la captura de pantalla de arriba, una visualización T-SNE enLos

Word2VEC

de Google

Corpus aislados a entidades relevantes están más estrechamente relacionadas con el término “ingeniero”, los primeros nombres típicamente asociados con los machos, como Keith, George, Herbert y Michael aparecen.

Por supuesto , el sesgo en Internet no se limita al género: “Sesgo de economía, sesgo de popularidad, sesgo de lenguaje (la gran mayoría de la web está en inglés, por ejemplo, y ‘programadores de inglés’ se llama ‘programadores inglés’ por una razón) . . . Para nombrar, pero unos pocos “, dijo Dawn Anderson, director general de Bertey. Si estos sesgos están presentes dentro de los datos de capacitación, y los modelos que están capacitados en ellos están empleados en algoritmos de motores de búsqueda, esas predisposiciones pueden aparecer en autosugestiones de búsqueda o incluso en el proceso de ranking y recuperación.

Una “pieza más pequeña oF El pastel de motores de búsqueda “para los comercializadores.

“Si estos modelos a gran escala se lanzan en todas partes, entonces es percibido que simplemente van a reforzar estos sesgos en la búsqueda, simplemente por la lógica de los materiales de capacitación en los que el modelo ha aprendido”, dijo Anderson, “así comienza una Ciclo perpetuo de refuerzo de sesgo, potencialmente. “ Esto también puede desempeñarse en el contenido personalizado que los motores de búsqueda como Google proporcionan a través de características, como la alimentación de descubrir. “Esto naturalmente conducirá a más resultados / perspectivas de mi óptica”, dijo Muller, “podría estar bien, por ejemplo, los fanáticos de Minnesota Vikings que solo quieren ver las noticias de Minnesota Vikings, pero pueden ser muy divisivas cuando se trata de política, conspiraciones, etc. y conducir a una brecha social más profunda “. “Para los mercadólogos, este pote.El camino de Ntaial conduce a una pieza aún más pequeña del pastel de motores de búsqueda, ya que el contenido se sirve de manera más estriada “, agregó. Si los modelos sesgados lo convierten en algoritmos de búsqueda (si aún no lo han hecho), eso Podría contar el objetivo de muchos SEOS. “La industria completa [SEO] está construida alrededor de hacer que los sitios web se clasifiquen en Google para palabras clave que pueden entregar ingresos a las empresas”, dijo Pete Watson-Wailes, fundador de la consultoría digital, difícil y competente, “sugiero que estamos somos Optimización de sitios para modelos que desacreditan activamente a las personas, y lo que dirige el comportamiento humano “.

Sin embargo, esta es una preocupación relativamente conocida, y las empresas están haciendo algunos intentos de reducir el impacto de dicho sesgo. Encontrar la solución no será simple

Encontrar formas de OVEEl sesgo de rienda en los modelos de idioma es una tarea desafiante que incluso puede afectar la eficacia de estos modelos. “Las compañías que desarrollan estas tecnologías están tratando de usar la tecnología de visualización de datos y otras formas de” interpretabilidad “para comprender mejor estos grandes modelos de lenguaje y limpiar la mayor cantidad posible,” dijo Muller, “no solo es esto increíblemente difícil, consume mucho tiempo. , y caro de mitigar (sin mencionar, relativamente imposible), pero también pierde algunas de las tecnologías actuales de vanguardia que ha estado sirviendo tan bien a estas compañías (GPT-3 en Modelos de OpenAI y grandes idiomas en Google).

Poner restricciones a los modelos de lenguaje, como la eliminación

de los pronombres de género en la función SMART COMPONE


de Gmail para evitar que el MISGENDERING, es un remedio potencial; “HoWever, estas soluciones de ayuda de la banda no funcionan para siempre y el sesgo continuará arrastrándose en nuevas e interesantes
formas en que actualmente no podemos prever “, agregó. Encontrar soluciones A los problemas relacionados con los sesgos ha sido un problema continuo para las plataformas de Internet. Reddit y Facebook usan ambos humanos a moderados, y están en una lucha aparentemente interminable para proteger a sus usuarios de contenido ilícito o sesgado. Si bien Google usa evaluadores humanos para proporcionar comentarios en la calidad de sus resultados de búsqueda, los algoritmos son su principal línea de defensa para proteger a sus usuarios. Si Google ha tenido más éxito que Facebook o Reddit En ese sentido depende de un debate, pero el dominio de Google sobre otros motores de búsqueda sugiere que es proporcionar mejores resultados de búsqueda de calidad que iLos competidores de TS (aunque otros factores, como los efectos de la red, también juegan un papel). Tendrá que desarrollar formas escalables para garantizar que la tecnología de la que las ganancias es equitativa si es mantener su posición como líder del mercado. Reconociendo públicamente los riesgos asociados con los modelos de lenguaje de capacitación en grandes conjuntos de datos, ya Ellos ambientales, sociales o que algo más en total, ayudan a mantener a las empresas responsables de neutralizarlas. Si la salida de Gebru de Google fue sobre el contenido de su documento que transmite una imagen potencialmente poco deslatada de la compañía, en lugar de ser sobre las normas de publicación de Google y el Ultimatum Gebru dio (como sugirió el Google SVP de AI Jeff Dean), el incidente pinta una imagen sombría del compromiso de la compañía con la AI ética cuando se enfrenta a ingenioH La perspectiva de los hallazgos potencialmente poco halagos de uno de los suyos llegan al público.

Leave a Reply

Your email address will not be published. Required fields are marked *