Categories
SEO

ACTUALIZACIÓN DE SEMRUSH Backlinks 2021: Cómo construimos una nueva herramienta de backlinks

Hace aproximadamente un año y medio establecimos un objetivo para nosotros.

Ese objetivo fue construir la base de datos de backlink más grande, de actualización más rápida y de la más alta calidad para nuestros clientes y ser mejor que los principales competidores conocidos en el mercado.

¡Ahora que hemos llegado a nuestro objetivo, no podemos esperar a que lo pruebes usted mismo!

¿Desea saber cómo, exactamente, pudimos construir una base de datos de este tipo?

Invertimos en la infraestructura, combinando 30,000 horas de trabajo de nuestro equipo de ingenieros y científicos de datos, 500 servidores y aproximadamente 16,722 tazas de café.

Suena simple, ¿verdad?

UdKaZyCr3USOFf8LncnhDx2B05Lglk34LZrzELSG2kb2vzabiGMz8p2Q73ZZgESgKeHPV-pJVYBtaUzMYZmlFF97INx6nmi0ATagbcuIUpPWNNaneLJx53YKdudFoZjFIwgetEr9

Simplemente echa un vistazo a

esta publicación de blog

para ver cómo Mucho más rápido que somos ahora.

Base de datos de backlinks nueva y mejorada

FIRST hablemos de lo que es nuevo, entonces le mostraremos cómo lo logramos y qué problemas que hemos resuelto. Con un mayor almacenamiento y tres veces más rastreadores y nuestra base de datos de backlinks ahora tiene la capacidad de encontrar, indexar y crecer aún más. WRcch6FhriDo3poYkn6ap5UUklP-O9QqHhViC-ypXhx5QHCqpR5QD7Cpf81KyQp2AYSVlFwmvUTC8I3RstT4LHsiV7RinIr5b0nMqfW5Amt34QJKE2UlQDCmDu7vKnjlNN8yc8ro En promedio, ahora estamos arrastrando:

Cómo funciona la base de datos de Semrush Backlink

antes Divida profundamente en lo que se ha mejorado, vamos a enfrentar los conceptos básicos de cómo funciona nuestra base de datos en el backlink. Primero, generamos una cola de URL que decide qué páginas se presentarán para un rastreo. Vpp98zrhkC5OFJwYmM7O_1ABiuqD9k7dhflA0aXsY6On8_D5xpalKuP-7aWYgOsol73-CnNq45f-Puv96O5oGWItHlFQHo8Hrob0BsTGBbSljoKNv59szC_pJYa1AiiRFx3VwbPy Luego, nuestros rastreadores salen e inspeccionan estas páginas. Cuando nuestros rastreadores identifican los hipervínculos que apuntan desde estas páginas a otra página en Internet, ahorran esa información.

A continuación, habría un almacenamiento temporal, que mantiene todos estos datos durante un período de tiempo antes de verlo en el almacenamiento orientado al público que cualquier usuario de Semrush puede ver en la herramienta.

Con nuestra nueva versión, virtualmente hemos eliminado la etapa de almacenamiento temporal, agregó 3 veces más rastreadores, y agregamos un conjunto de filtros antes de la cola, por lo que todo el proceso es mucho más rápido y eficiente.

Cola

En pocas palabras, hay demasiadas páginas para rastrear en Internet.

Algunos deben ser arrastrados con más frecuencia, algunos no tienen que ser arrastrados en absoluto. Por lo tanto, usamos una cola que decide en qué orden se presentarán las URL para un rastreo.

Un problema común en este paso se está arrastrando demasiadas URLS similares, irrelevantes, lo que podría llevar a las personasViendo más spam y menos dominios de referencia únicos.

¿Qué hicimos?

Para optimizar la cola, agregamos filtros que priorizamos el contenido único, los sitios web de la autoridad superior y protegemos contra las granjas de enlaces. Como resultado, el sistema ahora encuentra un contenido más único y genera menos informes con enlaces duplicados.

Algunos aspectos destacados de cómo funciona ahora:

Para proteger nuestra cola de las granjas de enlace, verificamos si un alto número de dominios proviene de la misma dirección IP. Si vemos demasiados dominios de la misma IP, se reducirá su prioridad en la cola, permitiéndonos rastrear más dominios de diferentes IP y no se atascará en una granja de enlaces. Para proteger los sitios web y evitar contaminar nuestros informes con enlaces similares, verificamos si hay demasiadas URL de la SDominio de AME. Si vemos demasiadas URL en el mismo dominio, no todos se arrastren el mismo día. Para asegurarse de que nos arrastremos las páginas nuevas lo antes posible, cualquier URL que no hemos rastreado antes tendrá más prioridad. Cada página tiene su propio código hash que nos ayuda a priorizar el contenido único de arrastre. Tenemos en cuenta la forma en que se generan nuevos enlaces en la página de origen. Tomamos en cuenta la puntuación de autoridad de una página web y un dominio. Cómo mejora la cola:

10+ Factores diferentes para filtrar enlaces innecesarios. Páginas más únicas y de alta calidad debido a los nuevos algoritmos de control de calidad.

Crawlers

Nuestros rastreadores siguen los enlaces internos y externos en Internet en busca de nuevas páginas con enlaces. Por lo tanto, solo podemos encontrar una página si hay un enlace entrante to it.

Mientras revisa nuestro sistema anterior, vimos la oportunidad de aumentar la capacidad general de rastreo y encontrar un mejor contenido: el contenido que los propietarios de sitios web querrían que nos arrastremos e indexaremos.

¿Qué hicimos? Triplicó nuestro número de rastreadores (de 10 a 30). Dejó de gatear las páginas con los parámetros de URL que no afectan el contenido de la página (y la Sesión, UTM, etc.). Aumento de la frecuencia de lectura y obedecer las instrucciones de los archivos Robots.txt en los sitios web.

¿Cómo se mejoran los rastreadores:

más rastreadores (30 ahora!) Datos limpios sin basura o enlaces duplicados mejor en la búsqueda de la velocidad de rastreo más relevante de 25 mil millones de páginas por día

Almacenamiento

El almacenamiento es donde mantenemos todos los enlaces que puede ver como usuario de Semrush. EstoEl almacenamiento le muestra los enlaces a usted en la herramienta y ofrece filtros que puede solicitar para encontrar lo que está buscando.

La principal preocupación que tuvimos con nuestro antiguo sistema de almacenamiento fue que solo podía volver a escribir completamente en la actualización. Eso significaba que cada 2-3 semanas, se reescribía y el proceso comenzaría.

Por lo tanto, durante la actualización, se acumulan nuevos enlaces en el almacenamiento intermedio, creando un retraso en la visibilidad en la herramienta a los usuarios. Queríamos ver si podríamos mejorar la velocidad en este paso.

¿Qué hicimos?

Para mejorar esto, reescribimos la arquitectura desde cero. Para eliminar la necesidad de almacenamiento temporal, incrementamos nuestra cantidad de servidores en más de cuatro veces más.

Esto tomó más de 30,000 horas de tiempo de ingeniería para IMPlemente las últimas tecnologías. Ahora, tenemos un sistema escalable que no llegue a ningún límite ahora o en el futuro.

Cómo se mejora el almacenamiento:

500+ 500 servidores totales 287TB Memoria de RAM 16,128 CPU CORES 30 PB TOTAL DE ALMACENAMIENTO ESPACIO LUCHARIO FILTRO rápido y reportando Actualización instantánea de informes – No más almacenamiento temporal

Backlink Estudio de la base de datos

Corrimos un estudio en dos partes comparando la velocidad de nuestros análisis de backlink a Moz, AHREFS y Majestic.

Para ver exactamente cuánto más rápido se ejecuta nuestra herramienta en comparación con las otras herramientas de SEO en el mercado, lee

esta publicación de blog . Estamos muy orgullosos de nuestra nueva base de datos de Analytics Backlinks que queremos que todos experimenten todo lo que tiene que ofrecer. ADS illustration Gana el acceso gratuito solo al registrarse para un SEMRU gratuitoLa cuenta SH y la sección Analytics Backlink estarán completamente abiertas a usted.

Pruébelo, háganos saber lo que piensa! ¡Bienvenido al futuro de la gestión dinámica de backlink! Encuentre los backlinks más rápido que nunca con SEMRUSH Backlink Analytics Obtenga acceso gratuito ahora → Obtenga acceso gratuito ahora →

Leave a Reply

Your email address will not be published. Required fields are marked *