Nov 14

You know about PageRank and about two weeks ago I mentioned a new paper from Stanford’s Database Group discussing PeopleRank. Today, another paper posted on the Stanford server. This one introduces TrustRank that has been developed to help fight web spam. Here’s the abstract:

Web spam pages use various techniques to achieve higher-than-deserved rankings in a search engine’s results. While human experts can identify spam, it is too expensive to manually evaluate a large number of pages. Instead, we propose techniques to semi-automatically separate reputable, good pages from spam. We first select a small set of seed pages to be evaluated by an expert. Once we manually identify the reputable seed pages, we use the link structure of the web to discover other pages that are likely to be good. In this paper we discuss possible ways to implement the seed selection and the discovery of good pages. We present results of experiments run on the World Wide Web indexed by AltaVista and evaluate the performance of our techniques. Our results show that we can effectively filter out spam from a significant fraction of the web, based on a good seed set of less than 200 sites.

Tags:

Nov 14

Recuperacion y organizacion de la informacion

El algoritmo de posicionamiento TrustRank es, según los expertos, el fin de las páginas poco útiles y bien posicionadas.
 

Como vimos en el algoritmo PageRank, la base del cálculo era que “un enlace es una recomendación” , y en base a ello se calculaba el interés de un determinado sitio web.

En estas circunstancias, seria posible engañar a los motores de recuperacion: si se generan enlaces desde páginas importantes, o simplemente muchos enlaces desde cualquier web (con independencia de su PageRank), la página es “muy recomendada”, por lo que se posicionaría arriba.
 

Esta burda forma de engaño trata de ser paliada por la vía algorítmica de los buscadores. Los algoritmos se cambian periódicamente y tratan de penalizar las malas prácticas. Sin embargo, todo algoritmo es de por sí una ley (de ordenacion o procesamiento). Y, como sabemos, algunos se dedican a buscar la debilidad de la ley que les beneficie
 

¿Qué es TrustRank?

TrustRank es, precisamente, el algoritmo que invalidaría este tipo de trucos. Se basa en analizar semánticamente la validez de las páginas, para evaluar de forma real si es útil para los usuarios
 

El proceso se desconoce todavía. La Universidad de Stanford expuso en un artículo la idea de que probablemente el proceso será guiado por humanos (ya no por computadores), que evaluarán un conjunto de páginas web (denominadas semilla). Dichas páginas serán transmisoras de TrustRank, de forma que cada página transmitirá un TrustRank un punto inferior al que tenga, de forma que con la distancia a la semilla se disminuiría dicho valor.
 

La gran diferencia de este proceso es que esos evaluadores de webs podrían otorgar valores de TrustRank negativos , de forma que se eliminaría, de una vez por todas, la existencia de las páginas inútiles.

Eleccion de las páginas semilla

Aunque se debe reiterar que se trata de una especulación, lo que sí es cierto es que habría páginas de reputada credibilidad (Universidades, Organismos oficiales) que formarían parte de ese conjunto.

A partir de ahí, podrían ser páginas interesantes:

  • Empresas con certificados de calidad ISO
  • Organos históricos en el ámbito de conocimiento (Real Academia Española…)
  • Medios de comunicacion (prensa, radio, televisión)
  • Organos de Internet (W3C, IETF)
  • … y otros muchos.

Eliminación de las páginas indeseadas

En efecto, las páginas trucadas dejarían de tener sentido. El algoritmo estaría controlado por humanos lo que haría poco efectivo las técnicas de engaño. Como consecuencia, esas webs dejarían de tener interés y, definitivamente, se limpiaría Internet del spam web actual.

Bibliografía y referencias de interés

Tags: ,