Ретинг блогосферы - пост 3

Провел небольшой эксперимент, имея на руках 4 параметра (visits24, links, comments, commenters), базу из 1000 постов за 3 дня, а также историю ТОПа с 40 постами за сутки, а попытался методом перебора коэффициентов найти наиболее подходящий вектор, на который делается проекция, как было описано в первом посте, чтобы после сортировки всех записей по величине этой проекции, в первых 100 оказывалось максимальное число постов, которые попали в топ, построенный по старому алгоритму.
Результатом стал вектор (10,9,12,12) с результатом в 25 постов из 40. Это прежде всего говорит о том, что в текущем алгоритме есть явная завышенная зависимость от числа различных русскоязычных комментаторов к посту (commenters). Я же для сортировки записей беру вектор с равными весами = (1,1,1,1). Кроме того, стоит отметить два выявленных особенностей
1) В блогах на YaRu - внутренняя ссылка является также комментарием, поэтому важно уменьшать кисло комментариев на число ссылок. Иначе получается завышенное число ярушных блогов с высокими значениями.
2) Нормировка происходит не только в группах по типу блогплатформы, но и по типу блога или сообщества. То есть для блогов и сообществ максимумы значений считаются отдельно.

После того, как записи в текущей куче постов за 3 дня отсортированы применяются фильтры. Их много, я их кратко перечислю по ходу применения:

1) "Нулевой фильтр", чтобы отсеять заведомо ошибочные записи с экстремумом по одному из параметров - оптимальная формула ((visits24>0 AND links>0) OR commenters>0) - это позволяет не отсеять посты с blogs.mail.ru, у которых сейчас неверно считается число комментаторов.

2) "Фильтр тем дня" - отсеиваются посты, которые были написаны на темы дня после публикации тем дня, так как на сегодняшний день там 90% спамерских сообщений. Отмечу лишь, что я допускаю попадание в ТОП не более одного поста на одну тему дня при условии, что на нее ссылались и комментировали раньше появления этой темы дня. 3) "Фильтр статистики" - считается, что нормальный блогер не может попадать в ТОП постоянно. Поэтому вставлены понижающие коэффициенты для записей тех блогеров кто ранее был в ТОПе. Коэффициенты настроены так, что к "вычеркиванию" из рассмотрения приводит 20 постов за 3 дня или 500 ТОПов за год. В первом случае могут возникнуть проблемы у тех, кто имеет самоссылающие трансляции, но этот вопрос надо еще проработать.

4) "Фильтр максимума" - после сортировки из всех постов выбираются 10% с максимальной величиной проекции и для них ищется максимальный разрыв в соседних значениях. Именно он характеризует границу между "перекрученными" и "недокрученными" постами. Именно эта граница является внутренней характеристикой экспертной системы.

5) "Фильтр дублей" - далее берется верхняя часть с перекрученными постами, если таких меньше 2, то берется нижняя часть. У всех постов считается корреляция с постами, которые уже находятся в ТОПе, путем подсчета суммы совпадающих нормированных слов-низкочастотников (от 4 знаков и
6) "Фильтр локального экстремума" - после предыдущей сортировки начинаем выбирать по порядку все записи и смотреть, является ли количество комментариев и ссылок чем-то выдающимся для блогера по сравнению с другими его последними записями или нет. Таким образом, топблогер, получающий каждый день сотни комментариев и ссылок будет фильтроваться. Найдя первую запись с локальным супремумом - помещаем ее в ТОП. Если таких записей не обнаружилось, то есть 2 варианта - в ТОП помещается одна из записей, написанных на тему, дня и удовлетворяющую "фильтру тем дня" либо идет в рассмотрение вторая половина полученная после "Фильтра максимума" из "недокрученных" постов.


Метки:   Категории:Code


blog comments powered by Disqus

Добавить комментарий

Кто я?

Программист. Я слежу за блогосферой и знаю, как будет развиваться интернет. Когда у меня есть время я даже прилагаю для этого усилия. Подробнее

Последние комментарии

Не отображать

Topbot at FeedsBurner

Облако тэгов

Мои Твиты

Twitter августа 16, 21:21
программа instagramliker обновлена 2018г еще раз http://dlvr.it/Qg7KPW

Twitter августа 15, 18:33
Разбор 2 сезона Рассказ служанки http://dlvr.it/Qg0Qxv https://twitter.com/f1ashr/status/1029798147676037121/photo/1

Twitter августа 14, 10:28
Юпитер для Америки (Юмор от НАСА) http://dlvr.it/QfqqTP https://twitter.com/f1ashr/status/1029313699054477312/photo/1

Twitter августа 14, 10:28
Мелькает число 35 в международных новостях http://dlvr.it/QfqqXV

Twitter августа 10, 23:41
Рейтинг каналов и ботов Телеграмм http://dlvr.it/QfVknB https://twitter.com/f1ashr/status/1028063721153691648/photo/1

Twitter августа 10, 23:41
Facebook потерял спутник во взрыве SpaceX http://dlvr.it/QfVklq https://twitter.com/f1ashr/status/1028063716946792448/photo/1

Twitter августа 10, 23:09
Интернет мемы победили Иисуса http://dlvr.it/QfVdXj https://twitter.com/f1ashr/status/1028055673823670272/photo/1

Twitter августа 10, 23:09
Японское аниме в российских кинотеатрах http://dlvr.it/QfVdV3 https://twitter.com/f1ashr/status/1028055668341661696/photo/1

Twitter августа 10, 23:09
Карта из 500млн. чекинов http://dlvr.it/QfVdQG https://twitter.com/f1ashr/status/1028055661697875968/photo/1

Twitter августа 10, 22:35
Медведь открывает дверь http://dlvr.it/QfVWZY https://twitter.com/f1ashr/status/1028047110791299072/photo/1

Twitter августа 10, 22:01
На батуте в космос http://dlvr.it/QfVNw3

Twitter августа 10, 21:29
Российские дирижабли покарят мир в 2035 году http://dlvr.it/QfVGwd https://twitter.com/f1ashr/status/1028030497220259840/photo/1

Twitter августа 10, 21:29
Skype and Baidu links http://dlvr.it/QfVGyS

Twitter августа 10, 21:29
7 лет аккаунту в твиттере http://dlvr.it/QfVGz9

Twitter августа 8, 09:51
Разбор сериала Экспансия (Пространство) http://dlvr.it/QfBHV6 https://twitter.com/f1ashr/status/1027130062976372736/photo/1

Twitter июля 29, 17:51
Добыча криптовалюты в браузере посетителей сайта http://dlvr.it/Qd94p4 https://twitter.com/f1ashr/status/1023626972050518016/photo/1

Twitter июля 29, 04:45
Танцы человека с роботом http://dlvr.it/Qd6Zmn

Twitter июля 29, 04:45
Казахстан переходит на 2-й этап к демократии http://dlvr.it/Qd6Zmt

Twitter июля 29, 04:45
Проблема монетизации на Ютубе http://dlvr.it/Qd6ZfV https://twitter.com/f1ashr/status/1023429180506009600/photo/1

Twitter июля 29, 04:12
Двенадцать часов на сценарной карте http://dlvr.it/Qd6VJL https://twitter.com/f1ashr/status/1023420876362895361/photo/1

Мой твиттер

Копирайт

Все мысли, высказанные в блоге, являются моим мнением и за это мнение меня никто не забанит! Кроме того, никто не имеет право копировать материалы блога без использования ctrl+C/V!

© Copyright 2008