Рейтинг Блогосферы - ОБНОВЛЕНИЕ

На днях в СМИ появились непонятные статьи о том, что рейтинг русскоязычных блогов закрывается. Тут стоило прояснить, что ничего не закрывается, а произойдет лишь обновление алгоритма ранжирования записей и то, в декабре этого года. Все самые обсуждаемые темы по прежнему будут доступны через сеть блогов topbot.ru и вся статистика будет доступна все там же - topbloger.ru. Необходимость обновления алгоритмов работы ТОПа обусловлена большим числом рекламных сообщений, которые стали попадать в ТОП. Последней каплей стало попадание 31 октября 4х записей одинакового содержания "МВД РАЗГОНЯЕТ ПЕНСИОНЕРОВ". Найти эти записи можно на странице, введя в поиск по названию указанную выше фразу (После того как мне позвонили с требованием убрать их - я стер часть копий).


Перейдем теперь к рассмотрению алгоритма ранжирования самых обсуждаемых тем русскоязычной блогосферы. Новой его особенностью будет то, что алгоритм помещения записи в ТОП будет публиковаться открыто в моих блогах. До момента обновления я буду результаты работы нового алгоритма доступны на странице beta.topbot.ru

Итак, как же работает ТОП? Имеется еженедельная куча всех стоящих для прочтения постов. Для каждой записи строится оценочная функция. Исходя общей теории экспертных оценок имеем, что вес записи в блоге равен композиции трех функций BlogPost(n) = F(comms,views,commenters,links)*H(comms,views,commenters,links)*C(theme,copies,time) - функции состояния объекта, истории объекта и функции коррекции от связей объекта с экспертной системой.
F(comms,views,commenters,links) - функция состояния объекта имеет в параметрах информацию по КОЛИЧЕСТВУ комментариев, посещений, комментаторов, ссылок. Я умышлено пока выбрасываю вес ссылок, так как алгоритм определения спам ссылок на Яндексе и дал сбои. Итого получаем 4х мерное пространство в котором каждый пост - является плоскостью. Нормируем по каждой величине (относительно максимума для каждой блогплатформы) и считаем проекцию на единичный вектор - это и есть вклад координат в вес поста в блоге.
H(author,weekly,reffers) - функция истории (или статистического анализа) от числа топов, сделанных автором (как за все время, так и попавших в поле рассмотрения экспертной системой) и пересечение блогов ссылающихся с теми, кто уже ссылался на запись, попавшую в поле зрение экспертной системы за последнее время.
C(theme,copies,time) - последняя функция отвечает за анализ контента записи. Прежде всего это фильтр по темам дня - запись содержащая ключевые слова из тем дня может попасть в топ только до того как была вывешена на главной тема дня. Копии - анализ записей на одну тему среди текущего топа, с целью недопущения попадания в топ однотипных записей.

Тестовый результат выполнения функции BlogPost(n) для вчерашней блогосферы (правда без функции С, так как морфологический анализатор еще не добавлен) я выложил на beta.topbot.ru.

На этом составление топа не заканчивается. Получив веса по указанному выше алгоритму можно увидеть, что распределение весов записей очень хорошо позволяет видеть "раскрученные" записи, вес которых завышен. Однако их можно грамотно отсеять, задав максимальное расстояние для топой записи от средневзвешенного значения записей в топе, но об этом будет рассказано по мере реализации нового алгоритма ранжирования.

По мере реализации алгоритма я буду обновлять предварительный ТОП, надеюсь на ваши отзывы для более корректного составления алгоритма - topbot@ya.ru

Метки:   Категории:Blogs | topbot | Yandex


blog comments powered by Disqus

Добавить комментарий

Кто я?

Программист. Я слежу за блогосферой и знаю, как будет развиваться интернет. Когда у меня есть время я даже прилагаю для этого усилия. Подробнее

Последние комментарии

Не отображать

Topbot at FeedsBurner

Мои Твиты

Twitter октября 23, 17:57
8-й час в России http://dlvr.it/QpG99N https://twitter.com/f1ashr/status/1054793845546790912/photo/1

Twitter октября 18, 06:44
Яндекс атаковал Израиль http://dlvr.it/QnhhCy

Twitter октября 17, 16:07
Как разверифицироваться в Твиттере? http://dlvr.it/Qnddsc https://twitter.com/f1ashr/status/1052591848303120390/photo/1

Twitter октября 17, 16:07
На батуте в космос http://dlvr.it/QnddrT

Twitter октября 17, 16:07
Estonian Fitsme http://dlvr.it/Qnddn3

Twitter октября 17, 16:07
Россия будет воевать http://dlvr.it/Qnddq7

Twitter октября 17, 15:33
Про браузеры http://dlvr.it/QndT1N

Twitter октября 17, 14:54
Прыгающий Робо-жук http://dlvr.it/QndGjW https://twitter.com/f1ashr/status/1052573591181582336/photo/1

Twitter октября 17, 14:54
Google Plus выкатывает красивые имена http://dlvr.it/QndGj2

Twitter октября 17, 14:54
Немецкие совестливые журналисты http://dlvr.it/QndGjD

Twitter октября 17, 09:27
Победа свободы над здравым смыслом http://dlvr.it/QnbjB5 https://twitter.com/f1ashr/status/1052491176593354752/photo/1

Twitter октября 17, 06:41
программа instagramliker обновлена 2018г http://dlvr.it/Qnb2DZ

Twitter октября 16, 07:50
CloudSearch http://dlvr.it/QnTLzB

Twitter октября 16, 07:50
Сидеть вредно. http://dlvr.it/QnTLzD

Twitter октября 16, 07:50
Вконтакте 7 лет http://dlvr.it/QnTLzH

Twitter октября 16, 07:50
Рейтинг авторитетности блогов http://dlvr.it/QnTLz2

Twitter октября 16, 07:50
Tech news http://dlvr.it/QnTLz5

Twitter октября 16, 07:13
Совет многоквартирного дома http://dlvr.it/QnTCHQ https://twitter.com/f1ashr/status/1052095075918872576/photo/1

Twitter октября 16, 07:13
Windows 10 и Новый мировой порядок http://dlvr.it/QnTCF0 https://twitter.com/f1ashr/status/1052095069317001216/photo/1

Twitter октября 16, 07:13
Украинские солдаты до сих пор не поняли с кем воюют http://dlvr.it/QnTC5Z https://twitter.com/f1ashr/status/1052095061586980864/photo/1

Мой твиттер

Копирайт

Все мысли, высказанные в блоге, являются моим мнением и за это мнение меня никто не забанит! Кроме того, никто не имеет право копировать материалы блога без использования ctrl+C/V!

© Copyright 2008