El concepto web Crawler proviene del inglés que significa tractor web, arador web o rastreador web, pero se refiere a un software que recorre un sitio web como lo haría un tractor en un campo de siembra o un rastreador para recoger información de las páginas web del sitio. También se le conoce como una araña de la web. Los primeros rastreadores web fueron: Araña RBSE construido por Clear Lake en 1994, utilizado en un software financiado por la NASA en la Universidad de Houston y tenía como función indexar y tener una fuente de estadística. En el mismo año, Brian Pinkerton de la Universidad de Washington creó WebCrawler convirtiéndose en el primer motor de búsqueda para encontrar textos completos. Y Heritrix ocupado en Internet Archive; actualmente es ocupado en Alexa Internet.
En término más simple un Crawler es un programa que rastrea las diferentes páginas de internet mediante un sistema automático y metódico.Su principal función es obtener información de las web's rastreadas. Un crawler, es un tipo de BOT, o agente del software. Comienza generalmente con una lista de URLs a visitar, llamadas semillas. Mientras que el crawler visita estas URLs, identifica todos los hipervínculos en la página y los agrega a la lista de URLs a la visita, llamada la frontera. Un crawler se caracteriza por ser una herramienta utilizada en los motores de búsqueda, ordena cada información encontrada y se encarga de indexarla. Esto es esencial para evaluar los sitios web y saber cuál es su posicionamiento. Es decir, si un medio no tiene los requisitos básicos para que el crawler lo encuentre, no será indexada y, por consecuencia, no será presentada en los motores de búsqueda.
En el siguiente video David Evans, profesor de informática en la Universidad de Virginia, explica cómo funcionan los motores de búsqueda:
Crawler aplicado al periodismo:
Para acceder de manera rápida a la información a través de un motor de búsqueda como Google, se introduce una palabra y automáticamente nos entrega información relacionada con el término requerido, lo que facilita la labor del periodista para su investigación siguiendo el algoritmo correspondiente para encontrar datos útiles para hacer el trabajo periodístico. Los medios de comunicación, especialmente los que tienen sitios web, están pendiente todos los días de cuántos usuarios han visto sus noticias y cuánto tiempo se quedan viendo. Es por esto que ocupan herramientas de análisis como Alexa Internet o Google Analytics para que el crawler se use en estas herramientas.
Esta araña cibernética trabaja con los CMS más usados, como Wordpress. En los sitios de noticias creados con este programa, para que sean vistos por los usuarios, deben tener un Plugin para trabajar con el crawler. Además, es fundamental que el SEO se encuentre correctamente y así facilitar el trabajo del rastreador. Sin embargo, hay circunstancias en la que no se encuentran los datos esperados. Eso no significa que el crawler hizo mal su trabajo. Todo lo contrario, la culpa es de la orden que se le dio para encontrar una información específica. Un claro ejemplo fue el polémico informe realizado en Big Data durante el estallido social por el gobierno de Chile. Pretendía encontrar a quienes estuvieron detrás de la agitación social, pero los resultados arrojaron que los responsables eran aficionados al K-pop, seguidores de futbolistas como Claudio Bravo y Gary Medel, e incluso eran influenciados por medios internacionales como Actualidad RT de Rusia y Telesur de Venezuela.
Referencias:
- Vuxmi (12 de agosto de 2017). Web Crawler ¿Qué son? y ¿Cómo funcionan?. Desconocido
- Tejedores del web (Desconocido)- ¿Qué es un crawler o spider? Desconocido
- David Mojo (7 de abril de 2018). 7 tácticas para posicionar tu web con Google web crawler. Costa Rica
- Prompt cloud (6 de enero de 2015). Evolución del rastreo web: cómo el rastreo web surgió como una disciplina convencional. Bengaluru, India
- Glosario Marketing (Desconocido). Crawler|Glosario de Marketing. Desconocido