Categories
Búsqueda pagada

Cómo usar Google Sheets para el edificio de la campaña de raspado web

Todos hemos estado en una situación en la que tuvimos que extraer datos de un sitio web en algún momento.

Cuando se trabaja en una nueva cuenta o campaña, es posible que no tenga los datos o la información disponible para La creación de los anuncios, por ejemplo.

En un mundo ideal, habríamos sido proporcionados con todo el contenido, las páginas de destino y la información relevante que necesitamos, en un formato fácil de importar, como Una hoja de cálculo de CSV, Excel, o hoja de Google. (O lo menos, proporcionó lo que necesitamos como datos con pestañas que se pueden importar en uno de los formatos mencionados anteriormente).

Pero eso no siempre es la forma en que va.

Aquellos que carecen de la Las herramientas para el raspado web, o el conocimiento de codificación para usar algo como Python para ayudar con la tarea, puede haber tenido que recurrir al trabajo tedioso de MAPosiblemente copiando y pegando posiblemente cientos o miles de entradas.

En un trabajo reciente, se le pidió a mi equipo:

advertisementContinue leyendo a lo largo del sitio web del cliente. Aloje más de 150 nuevos productos distribuidos en 15 páginas diferentes .Copy y pegue el nombre del producto y la URL de la página de destino para cada producto en una hoja de cálculo.

Ahora, puede imaginar lo largo de la tarea que habría sido la tarea si hubiéramos hecho eso y ejecutamos manualmente la tarea.

No solo requiere mucho tiempo, sino que con alguien que atraviesa manualmente a través de tantos artículos y páginas, y que tiene que copiar físicamente y pegar el producto de datos por producto, las posibilidades de cometer un error o dos son bastante altas.

A continuación, requeriría aún más tiempo para revisar el documento y asegurarse de que no se haya libre de errores.

Tiene que haber una mejor manera.

Buenas noticias: ¡Hay! Déjame mostrarte cómo lo hicimos.

¿Qué es ImportXML? Ingrese las hojas de Google. Me gustaría que cumpliera con la función ImportXML.

Según la página de soporte

de Google

, importxml “importa datos de cualquiera de los diversos tipos de datos estructurados, incluidos XML, HTML, CSV, TSV, y RSS y Atom XML Feeds. “

AnuncioContinue Lectura a continuación

Esencialmente, IMPORTXML es una función que le permite raspar los datos estructurados de las páginas web: no se requiere conocimiento de codificación.

Por ejemplo, es rápido y fácil de Extraiga datos tales como títulos de páginas, descripciones o enlaces, pero también información más compleja.

¿Cómo puede IMPORTXML ayudar a raspar elementos de una página web?

La función en sí es bastante simple y solo RequiRES DOS VALORES: La URL de la página web pretendemos extraer o raspar la información de.Y

XPath

del elemento en el que se contiene los datos.

Xpath representa

Idioma de la ruta XML

y se puede usar para navegar a través de elementos y atributos en un documento XML.

Por ejemplo, para extraer el título de la página de https://en.wikipedia.org/wiki/moon_landing, Usaríamos:

= importxml (“https://en.wikipedia.org/wiki/moon_landing”, “// Título”)

Esto devolverá el valor: Moon Landing – Wikipedia.

SEJ Home Page Meta Description Pulled with IMPORTXML. O, si estamos buscando la descripción de la página, intente esto:

= importxml (“https://www.searchenginejournal.com/”, “// meta [@ Nombre = ‘Descripción’] / @ contenido “) SEJ Home Page Meta Description Pulled with IMPORTXML.

Aquí hay una lista de algunos de los más comunes.D Consultas de XPath útiles:

Título de la página: // titlepage Meta Descripción: // Meta [@ Name = ‘Descripción’] / @ contentpage H1: // H1page Enlaces: // @ href

Consulte ImportXML en acción

Dado que descubriendo importxml en Google Sheets, realmente se ha convertido en una de nuestras armas secretas en la automatización de muchas de nuestras tareas diarias, desde la creación de campañas y anuncios hasta la investigación de contenido, y más.

Por otra parte. , la función combinada con otras fórmulas y complementos se puede usar para tareas más avanzadas que de otra manera requerirían soluciones y desarrollo sofisticados, como las herramientas construidas en Python.

, pero en este caso, veremos importxml En su forma más básica: raspando los datos de una página web.

Echemos un vistazo a un ejemplo práctico.

Imagina que nos hemos pedido que creemos unCampaña para la revista de motores de búsqueda.

Nos gustaría que anunciemos los últimos 30 artículos que se han publicado bajo la sección PPC del sitio web.

AnunciCementContinue leyendo a continuación

Una tarea bastante simple, podría Decir.

Lamentablemente, los editores no pueden enviarnos los datos y nos han pedido que nos soliciten que se referiremos al sitio web para obtener la información requerida para configurar la campaña.

Como se mencionó en El comienzo de nuestro artículo, una forma de hacerlo sería abrir dos ventanas del navegador, uno con el sitio web, y el otro con Google Sheets o Excel. Luego comenzaríamos a copiar y pegar la información sobre el artículo por artículo, y vincularíamos por vínculo.

Pero usando importxml en Google Sheets, podemos lograr la misma salida con poco o ningún riesgo deHaciendo errores, en una fracción de la época. Start with a Blank Google Sheets Document.

Aquí hay como. Start with a Blank Google Sheets Document. Paso 1: Comience con una hoja de Google fresca

Primero, abrimos un nuevo, en blanco Google Sheets Documento:

Add the URL of the Page You Want to Scrape.

Paso 2: Agregue el contenido que necesita para raspar Add the URL of the Page You Want to Scrape. Agregar la URL de la página (o Páginas) Queremos raspar la información de.

AnunciCementContinue Lectura a continuación

En nuestro caso, comenzamos con

https://www.searchenginejournal.com/category/pay-per-click/

:

Open the Chrome WebDev Tool.

Open the Chrome WebDev Tool. Paso 3: Encuentre el XPath

Encontramos el XPath del elemento que queremos importar el contenido de en nuestra hoja de cálculo de datos.

En nuestro ejemplo, comencemos con los títulos de los últimos 30 artículos. Find and Copy the XPath Element You Want to Extract.

Diríjase a Chrome. Una vez flotando sobre el título de uno de los arti.CLES, haga clic con el botón derecho y seleccione Inspeccione. Find and Copy the XPath Element You Want to Extract.

Esto abrirá la ventana Chrome Dev Tools:

Asegúrese de que el título del artículo aún esté seleccionado y resaltado, haga clic con el botón derecho nuevamente y elija

Copiar> Copiar XPATH

.

PublicidadContinue Lectura a continuación

Paso 4: Extraiga los datos en las hojas de Google

en su documento de Google Sheets, introduzca la función ImportXML de la siguiente manera:

= importxml (B1 “// * [Inicio con (@id, ‘Título’)]”)

Un par de cosas para notar: An example of IMPORTXML.

Primero An example of IMPORTXML., en nuestra fórmula , hemos reemplazado la URL de la página con la referencia a la celda donde se almacena la URL (B1).

Segundo Titles Imported in Google Sheets., al copiar el XPATH desde Chrome, esto siempre será ENCSolucionado en comillas dobles.

(Titles Imported in Google Sheets. (// * [@ id = “title_1”])

Sin embargo, para asegurarse de que no se rompe la fórmula, la señal de la doble cotizaciones deberá cambiarse a la señal única de la cotización. (// * [@ id = ‘title_1’])

Tenga en cuenta que en esta instancia, porque el título de la identificación de la página cambia para cada uno Artículo (Title_1, Title_2, etc.), debemos modificar ligeramente la consulta y usar “Inicio, con” para capturar todos los elementos en la página con una ID que contiene ‘Título’.

Aquí es lo que eso Busca el documento de las sábanas de Google:

y en unos pocos momentos, esto es lo que se ven los resultados después de que la consulta ha sido cargó los datos en la hoja de cálculo:

Import the Article Links.

Import the Article Links.

Articles and URLs Imported in Google Sheets. Como puede ver, la lista devuelve todos los artículos que son FEASe trata de la página de que acabamos de raspar (incluida mi pieza anterior sobre la automatización y cómo usar

Correctores de anuncios para mejorar el rendimiento de la campaña de los anuncios de Google ). Articles and URLs Imported in Google Sheets. AnunciCementContinue leyendo a continuación Puedes aplicar esto a Raspando cualquier otra información que necesite configurar su campaña publicitaria.

Agreguemos las URL de la página de destino, el All the Data is Scraped and Imported in Google Sheets. SNIPPET presentado

de cada artículo, y el nombre del autor en Nuestro documento de sábanas. All the Data is Scraped and Imported in Google Sheets. Para las URL de la página de destino, necesitamos modificar la consulta para especificar que estamos después del elemento HREF adjunto al título del artículo.

Por lo tanto, nuestra consulta se verá como Esto:

= importxml (B1, “// * [Inicio con (@id, ‘Título’)] / @ href”)

Ahora, apéndice ‘/ @ href’ a El final de la XPath.

Voila! De inmediato, tenemos las URLS de las páginas de destino:

Puede hacer lo mismo para los fragmentos y nombres de autores destacados:


Solución de problemas

Una cosa para su cuidado es que para poder expandirse completamente y completar la hoja de cálculo Con todos los datos devueltos por la consulta, la columna en la que se rellenan los datos deben tener suficientes células libres y no hay otros datos en el camino. AnunciCementContinue Lectura a continuación

Esto funciona de manera similar a cuando usamos una Arrayformula , para que la fórmula se expanda, no debe haber otros datos en la misma columna. Conclusión Y allí tiene una forma totalmente automatizada, sin errores, de raspar datos de (potencialmente) Cualquier página web, ya sea que necesite tEl contenido y las descripciones de los productos, o los datos de comercio electrónico, como el precio del producto o los costos de envío. En un momento en que la información y los datos pueden ser la ventaja necesaria para entregar mejor que los resultados promedio, la capacidad de raspar las páginas web y la estructura. El contenido de una manera fácil y rápida puede ser invaluable. Además, como lo hemos visto anteriormente, ImportXML puede ayudar a reducir los tiempos de ejecución y reducir las posibilidades de cometer errores. Además, la función no es solo una gran herramienta que se puede usar exclusivamente para tareas de PPC , pero en cambio puede ser realmente útil en muchos proyectos diferentes que requieren raspado web, incluidas las tareas de SEO y contenido. Más recursos: 10 Hojas de Google Añadir -Ones que hacen que el trabajo SEO sea más fácil Cómo construir un análisis de enlace DACubo con la función de consulta de Google en las sábanas de Google [Plantilla gratuita] PPC 101: una guía completa de los conceptos básicos de marketing de PPC advertisementcontinue Lectura a continuación Créditos de la imagen Todas las capturas de pantalla tomadas por el autor, de agosto de 2021

Leave a Reply

Your email address will not be published. Required fields are marked *