洪民憙 (홍민희) 블로그

Exploiting Google PageRank using Reddit

2015년 8월 30일 현재, Google에서 TV 프로그램을 받아서 보기 위해 150829 더지니어스 같은 식으로 검색을 해보면 몇개의 Reddit 스레드가 상위에 노출된다. 눌러서 들어가보면 각 스레드는 각각 전혀 다른 subreddit에 올라온 것들이고, 다운로드 링크가 걸려 있는데 들어가면 웬 웹하드 사이트가 뜬다.

이는 십중팔구 웹하드 사이트의 스패밍일 것이다. 과거 많이 쓰였던 트랙백 스팸과 같은 수법인데, 랭크가 낮은 웹 페이지를 랭크가 높아질 자격이 있는 것잉 양 검색 엔진을 속이기 위해, 이미 랭크가 높은 웹 페이지에 댓글이나 트랙백 등으로 링크를 걸어서 덩달아 랭크를 높이는 수법이다. 이는 물론 스패밍이며 검색 엔진 어뷰징이다. 다행히 이제 그러한 방식의 스패밍은 포럼 소프트웨어 수준에서 링크를 자동으로 걸어주지 않는 식으로 많이 차단이 된 상태이다.

Reddit에서는 스팸 역시 단순히 정보성이 낮은, 즉 가치 없는 콘텐트로 일반화해서 다루는데, 흥미 없는 스레드에 다운보트하는 것과 같이 스팸 스레드에도 다운보트하여 목록에서 추락시킨다. 저 아래쪽에 떨어지게 되므로 목록은 빠르게 정화된다. 그렇지만 엄연히 스레드는 목록에서 삭제되는 것은 아닌데, 순위가 내려갈 뿐 목록에는 여전히 포함되어 있는 것이다.

Reddit은 트래픽이 매우 많은 사이트로, 각각의 subreddit도 대체로 랭크가 매우 높은 편이다. 그러한 노른자 터에 단 몇분이라도 스팸을 노출시킬 수 있다면 그것만으로 Google 검색 결과에서는 상당히 높은 위치에 자리 잡을 수 있게 된다.

아마 Google 검색 엔진은 내가 상상하는 것보다 훨씬 똑똑할테지만, 문득 PageRank 방식이 웹 페이지에 걸리는 링크는 그 페이지 내용을 만든 사람의 의도로 넣은 것이다라는 가정을 하고 있었고, 정적인 웹 페이지보다 댓글이 달리는 등의 동적인 웹 페이지가 훨씬 더 많아지면서 시대에 맞지 않는 가정이 된 것이 아닌가 하는 생각이 들었다.