Рейтинг Блогосферы - ОБНОВЛЕНИЕ

На днях в СМИ появились непонятные статьи о том, что рейтинг русскоязычных блогов закрывается. Тут стоило прояснить, что ничего не закрывается, а произойдет лишь обновление алгоритма ранжирования записей и то, в декабре этого года. Все самые обсуждаемые темы по прежнему будут доступны через сеть блогов topbot.ru и вся статистика будет доступна все там же - topbloger.ru. Необходимость обновления алгоритмов работы ТОПа обусловлена большим числом рекламных сообщений, которые стали попадать в ТОП. Последней каплей стало попадание 31 октября 4х записей одинакового содержания "МВД РАЗГОНЯЕТ ПЕНСИОНЕРОВ". Найти эти записи можно на странице, введя в поиск по названию указанную выше фразу (После того как мне позвонили с требованием убрать их - я стер часть копий).


Перейдем теперь к рассмотрению алгоритма ранжирования самых обсуждаемых тем русскоязычной блогосферы. Новой его особенностью будет то, что алгоритм помещения записи в ТОП будет публиковаться открыто в моих блогах. До момента обновления я буду результаты работы нового алгоритма доступны на странице beta.topbot.ru

Итак, как же работает ТОП? Имеется еженедельная куча всех стоящих для прочтения постов. Для каждой записи строится оценочная функция. Исходя общей теории экспертных оценок имеем, что вес записи в блоге равен композиции трех функций BlogPost(n) = F(comms,views,commenters,links)*H(comms,views,commenters,links)*C(theme,copies,time) - функции состояния объекта, истории объекта и функции коррекции от связей объекта с экспертной системой.
F(comms,views,commenters,links) - функция состояния объекта имеет в параметрах информацию по КОЛИЧЕСТВУ комментариев, посещений, комментаторов, ссылок. Я умышлено пока выбрасываю вес ссылок, так как алгоритм определения спам ссылок на Яндексе и дал сбои. Итого получаем 4х мерное пространство в котором каждый пост - является плоскостью. Нормируем по каждой величине (относительно максимума для каждой блогплатформы) и считаем проекцию на единичный вектор - это и есть вклад координат в вес поста в блоге.
H(author,weekly,reffers) - функция истории (или статистического анализа) от числа топов, сделанных автором (как за все время, так и попавших в поле рассмотрения экспертной системой) и пересечение блогов ссылающихся с теми, кто уже ссылался на запись, попавшую в поле зрение экспертной системы за последнее время.
C(theme,copies,time) - последняя функция отвечает за анализ контента записи. Прежде всего это фильтр по темам дня - запись содержащая ключевые слова из тем дня может попасть в топ только до того как была вывешена на главной тема дня. Копии - анализ записей на одну тему среди текущего топа, с целью недопущения попадания в топ однотипных записей.

Тестовый результат выполнения функции BlogPost(n) для вчерашней блогосферы (правда без функции С, так как морфологический анализатор еще не добавлен) я выложил на beta.topbot.ru.

На этом составление топа не заканчивается. Получив веса по указанному выше алгоритму можно увидеть, что распределение весов записей очень хорошо позволяет видеть "раскрученные" записи, вес которых завышен. Однако их можно грамотно отсеять, задав максимальное расстояние для топой записи от средневзвешенного значения записей в топе, но об этом будет рассказано по мере реализации нового алгоритма ранжирования.

По мере реализации алгоритма я буду обновлять предварительный ТОП, надеюсь на ваши отзывы для более корректного составления алгоритма - topbot@ya.ru

Метки:   Категории:Blogs | topbot | Yandex


blog comments powered by Disqus

Добавить комментарий

Кто я?

Программист. Я слежу за блогосферой и знаю, как будет развиваться интернет. Когда у меня есть время я даже прилагаю для этого усилия. Подробнее

Последние комментарии

Не отображать

Topbot at FeedsBurner

Облако тэгов

Мои Твиты

Twitter мая 25, 17:18
Рейтинг каналов и ботов Телеграм http://dlvr.it/QV5d6Y

Twitter мая 25, 16:12
Пример божественного вмешательства в фильме No country for old men http://dlvr.it/QV5HxB https://twitter.com/f1ashr/status/1000046919136067586/photo/1

Twitter мая 25, 15:06
Танцы человека с роботом http://dlvr.it/QV4y0p

Twitter мая 25, 13:30
роботы пишут жалобы http://dlvr.it/QV4QQG

Twitter мая 25, 09:43
Шахматная композиция для демонстрации 3-го этапа общества http://dlvr.it/QV3G9p https://twitter.com/f1ashr/status/999948953805180928/photo/1

Twitter мая 25, 09:11
Hoverbike for US Army http://dlvr.it/QV3674

Twitter мая 25, 08:07
Google AdWords купон на 1600p http://dlvr.it/QV2pMz

Twitter мая 25, 08:07
Соц.медиа http://dlvr.it/QV2pNR

Twitter мая 25, 08:07
Мониторинг соц.сетей на госзакупках - 5 http://dlvr.it/QV2pP3

Twitter мая 24, 16:21
Казахстан переходит на 2-й этап к демократии http://dlvr.it/QTz5QX

Twitter мая 24, 03:31
Проблемы восприятия информации людишками http://dlvr.it/QTvLgN

Twitter мая 23, 14:09
Поиск причины популярности спиннеров http://dlvr.it/QTqqGv https://twitter.com/f1ashr/status/999291326867820545/photo/1

Twitter мая 23, 13:37
Программа InstagramLiker обновлена http://dlvr.it/QTqdn2

Twitter мая 22, 17:51
Про найм вконтактика http://dlvr.it/QTkc7x

Twitter мая 22, 17:19
Этой осенью "A New Beginning for Mankind.." http://dlvr.it/QTkSGQ https://twitter.com/f1ashr/status/998976610354151424/photo/1

Twitter мая 22, 16:47
В Ступино напечатали первый 3D дом http://dlvr.it/QTkGv5

Twitter мая 22, 15:11
коломенский кремль: альтернативная история 2 http://dlvr.it/QTjlrg https://twitter.com/f1ashr/status/998944561769541634/photo/1

Twitter мая 22, 15:11
Яндекс атаковал Израиль http://dlvr.it/QTjlr0

Twitter мая 22, 14:38
"Добродел" добавлен в http://t30p.ru http://dlvr.it/QTjYqX

Twitter мая 22, 14:38
Перенос коллапса товарооборота в Беларуси на 2018 год http://dlvr.it/QTjYr6

Мой твиттер

Копирайт

Все мысли, высказанные в блоге, являются моим мнением и за это мнение меня никто не забанит! Кроме того, никто не имеет право копировать материалы блога без использования ctrl+C/V!

© Copyright 2008