Рейтинг блогосферы - пост 4 (про ссылки)

Примечательно, что с каким бы программистом я не начинал обсуждать алгоритм составления ТОПа, в итоге каждый говорил, что вот он сейчас пойдет создаст сайт, выложит там новый ТОП и станет популярным. Это с одной стороны хорошо, так как показывает, что программисты - люди дела и любители играть в разные алгоритмы, а также мечтают стать знаменитыми. Но с другой стороны показывает, что они не понимают
1) Как работать в команде,
2) Что так как все работают с одним векторным пространством и одинаковыми сырыми данными, то в итоге рейтинг у всех будет совпадать в значительной степени.(~20%)
3) Самая сложность не в первоначальной сортировке, а в последующих фильтрах, которые должны отсеять спамерские посты. А спамерские посты чаще всего имеют ссылки как входящие, на сам пост, так и исходящие - на рекламу - которые нужно уметь определять и фильтровать. Вот об этом алгоритме работы нового ТОПа и поговорим.

После 4х летнего изучения топов я с полной уверенностью могу сказать, что нет смысла составлять списки бана, то есть лишать определенныз определенных блогеров шанса попасть в ТОП. Ибо это равносильно тому, чтобы посадить своего модератора, так как спамер может создавать новые блоги каждый день. В связи с этим логичным видится
1) фильтр по ссылкам, которые содержаться в посте - то есть все ссылки должны проходить проверку через сервис opendns, чтобы исключить ссылки на фишинговые сайты в топе или на сайты с вирусами. Минус - медленная работа по отбору записей, поэтому я пока ограничился самосоставленным списком с плохими ресурсами. И если в после есть ссылка на плохой ресурс, то пост не попадет в топ. Также я расматриваю вариант, когда на наличие плохих ссылок будет анализироваться вся главная страница блога и страница профиля, так как вероятно их откроет человек захотевший узнать побольше об авторе ТОПа и этим тоже пользуются спамеры.
2) ссылки на популярные сервисы сокращения ссылок (bit.ly) можно пока не фильтровать, так как эти сервисы сами заинтересованы в фильтрации ссылок на фишинговые и вирусные сайты.
3) Ранее я упомянул фильтр на локальный экстримум - он заключается в том, что проверяется, что за локальный период времени ссылок именно на этот пост блогера было больше всего или комментариев было больше всего. Это прежде всего позволяет отфильтровать тех у кого есть трансляции и у кого стабильно по несколько ссылок между своими трансляциями. Также отфильтрует тех, у кого стабильно много комментариев, например из-за спама в комментариях.
4) Анализируя спамерскую активность я пришел к выводу в необходимости фильтра "LinksIntegrity" - задача которого проверить все ссылки на расматриваемый пост, отбросить одинаковые, отбросить те, которые сделаны из сообществ и отбросить все ссылки с микроблогов. Повышенная активность в микроблогах и то, что там почти каждый пост содержит ссылки - говорит о том, что нельзя микроблоги причислять к полноценным блогам. Кроме того в микроблогах сейчас каждый упоминание типа "@user" - считается ссылкой и это сильно перекосило рейтинг блогеров и вызывает недоумение в определенных кругах. Итак, после отбора ссылок, проверяется, что оставшееся число ссылок достаточно для того, чтобы интегральная характеристика поста оставалась среди 20% постов с наибольшим значением.


Метки:   Категории:Blogs | Analytics | topbot | Code


blog comments powered by Disqus

Добавить комментарий

Кто я?

Программист. Я слежу за блогосферой и знаю, как будет развиваться интернет. Когда у меня есть время я даже прилагаю для этого усилия. Подробнее

Последние комментарии

Не отображать

Topbot at FeedsBurner

Мои Твиты

Twitter февраля 19, 06:57
Диоксин угрожает планете! http://dlvr.it/QGwPKJ https://twitter.com/f1ashr/status/965480472095555584/photo/1

Twitter февраля 11, 18:36
@typographera @lustforcookies Но Москва на 70 лет моложе и была основана при Кутузове, когда начали железную дорогу прокладывать.

Twitter февраля 11, 17:24
@lustforcookies @typographera А ничего, что Коломна основана от силы 270 лет назад?

Twitter февраля 11, 14:07
Украина готовит на Евровидение песню с быками http://dlvr.it/QFw6Kb

Twitter февраля 9, 14:07
Чем белые отличаются от черных? http://dlvr.it/QFh4j8 https://twitter.com/f1ashr/status/961964675469426690/photo/1

Twitter февраля 6, 09:57
Победа свободы над здравым смыслом http://dlvr.it/QFD2S4 https://twitter.com/f1ashr/status/960814600802377731/photo/1

Twitter февраля 4, 15:32
В Твиттере начался обвал фолловеров http://dlvr.it/QDzJLg

Twitter февраля 3, 08:34
Суммарная капитализация криптовалют http://dlvr.it/QDqJyj

Twitter февраля 2, 10:52
Музыка про прилет Американцев на Марс http://dlvr.it/QDhYq7 https://twitter.com/f1ashr/status/959378893017726977/photo/1

Twitter января 28, 17:04
Разбор трилогии Матрицы (The Matrix Trilogy) http://dlvr.it/QD3h9W https://twitter.com/f1ashr/status/957660569674199040/photo/1

Twitter января 24, 13:20
Google Lunar X Prize - за 10 лет никто не смог запуститься на Луну http://dlvr.it/QCYSRW https://twitter.com/f1ashr/status/956154641753911298/photo/1

Twitter января 24, 04:03
Разбор сериала Туман или 4 всадника Апокалипсиса http://dlvr.it/QCVWXz https://twitter.com/f1ashr/status/956014586666287104/photo/1

Twitter января 23, 19:50
Пасха в Москве 2 сентября 2017 года http://dlvr.it/QCS7cD https://twitter.com/f1ashr/status/955890398899007488/photo/1

Twitter января 23, 19:50
Пользователи умудрились поломать гео-локацию в Инстаграм http://dlvr.it/QCS7hp

Twitter января 23, 16:29
В бюджете Америки появились лишние 2 трлн. долларов http://dlvr.it/QCQpPr

Twitter января 22, 14:45
Добродел обновился http://dlvr.it/QCGHwl https://twitter.com/f1ashr/status/955451259439407105/photo/1

Twitter января 22, 13:32
Рейтинг каналов и ботов Телеграмм http://dlvr.it/QCFt9v https://twitter.com/f1ashr/status/955432885657395200/photo/1

Twitter января 21, 16:15
Битва за Мосул в 360 с вертолета http://dlvr.it/QC84Xk https://twitter.com/f1ashr/status/955111520337248256/photo/1

Twitter января 21, 16:15
3 февраля стартует год огненного Петуха http://dlvr.it/QC84XQ

Twitter января 21, 16:15
Независимая Подмосковия http://dlvr.it/QC84X3

Мой твиттер

Копирайт

Все мысли, высказанные в блоге, являются моим мнением и за это мнение меня никто не забанит! Кроме того, никто не имеет право копировать материалы блога без использования ctrl+C/V!

© Copyright 2008