end of 2009

Уходящий год заканчивается как-то неожиданно херово, а может и охуенно. Застрял в ГОА, без багажа, но с деньгами и ноутом. Без определенных планов как на празнование НГ, так и на начало следующего года. Вот как-то так.
А тем временем директ яндекса упорно на каждой странице предлагает мне купить путевку на ГОА.

Метки:   Категории:Yandex | life


- yandex.blogs

Вот и убрали с главной Яндекса рейтинг блог постов блогосферы, теперь у нас более 20 рейтингов. Также добавили новый раздел "новости в блогах" - почти тоже самое, что и темы дня - польза нулевая, зато новая возможность для спамеров нагнать себе трафик. Вообще если приглядеться, то треть топов сделана сеошниками для нагона трафика, треть - скучающими фрилансерами, а треть - новостными порталами и пиарщиками. Все они на перебой говорят об своей уникальности - которая на самом деле позаимствована с других; о своих гиганских планах - когда нет честной монетизации; и а своих крутых алгоритмах - хотя у некоторых в итоге будут сидеть модераторы или топ составляться по спискам бана и разрешенным блогером.
И только топ30 для топбота - белая ворона, был сделан только потому, что, блять, 4 года уже занимается сбором популярных записей и глупо сейчас все бросать. По случаю обновил дизайн на ТОП30 - стало лучше =).

А самое интересное, что ни пользователи, ни блогеры, ни инвесторы, ни рекламщики - не хотят иметь 20 топов, все хотят иметь 2-3, а для этого придется ждать где-то 2 года, пока все вымрут, а там глядишь и блоги никому уже нужны не будут - все будем сидеть в Фейсбуке =).

Метки:   Категории:Blogs | Yandex | life


noindex - Неиндексируемый контент

Еще одна актуальная проблема создания ТОПа, с которой придется столкнуться всем - когда сам автор не хочет попадать в ТОП. Для этого ему логичнее всего поставить настройку в ЖЖ "не учавствовать в индексации". Технически это выражается в добавлении тэга noindex. Но ЖЖ такой нехороший, что продолжает выдавать данные по RSS, что позволяет все равно попадать в ТОП, а вот Яндекс, с другой стороны, поступает честно и не индексирует записи, что заметно усложняет анализ "топовости" поста. Но с другой стороны, если автор не захотел поисковой популярности, почему бы нам не пойти ему на уступку и отбрасывать запись.

И более сложный вопрос, а что если модераторы сообщества запретили индексацию, а автор и не знал об этом, как это случилось с популярной записью в следующем сообществе - http://community.livejournal.com/positive_adopt/117852.html. Вроде бы автор не виноват, писал хороший текст, старался, а тут облом и не пришла популярность. Видимо именно для таких случаев придется сделать исключение. А Вы что думаете?

Метки:   Категории:Blogs | Yandex


Рейтинг блогосферы - пост 5 (алгоритм сортировки)

За прошедшую неделю я успел пообщаться с нашим патентным ведомством, которое сказало мне, что алгоритмы не патентуют, патентуют готовые прототипы. Предложили подогнать мою заявку под "Программу для базы данных для ЭВМ", но я не стал тратить время. Таким образом продолжаю серию постов, кратко рассказывающих как формируется ТОП30. Содержание уже опубликованных заметок

Сегодня я приведу алгоритм первичной сортировки и объясню некоторые моменты. Если Вы читали предыдущие заметки, то должны знать, что алгоритм первичной сортировки нужен только для того, чтобы выбрать порядок в котором записи будут анализироваться на предмет прохождения через фильтры. Собственно сам package первичной сортировки:Далее...


Метки:   Категории:topbot | Yandex


Рейтинг блогеров

Яндекс наконец-то выкинул мертвяков (их нельзя было читать) из blogs.mail.ru с верхних строчек рейтинга. Теперь вопросы вызывает нахождение там "блога картинок" - уровень заметно ниже тех же фишек, да и посещаемость накручена, да и комментариев относительно немного.
Будем ждать.

Метки:   Категории:Yandex | news


Рейтинг блогосферы - пост 2

Сегодня я вернусь к вопросу правильности выбора параметров, от которых строится функция F(comms,visits,commenters,links) - входящая в композицию веса поста.
Первый вопрос, почему я отбросил другие параметры, кроме перечисленных четырех, такие как "число комментариев/ссылок/комментаторов за последние 24 часа", а также "вес ссылок - linksweight". Ответ: Я достаточно долго работал с данными, собираемыми распределенной системой по всему миру и убедился, что такой параметр как время становится более чем относительной характеристикой. В этот параметр вкладывается и задержка поступления данных с разного индексирующего кластера, и месторасположение блогплатформы, у которой серверное время может выдаваться со сдвигом и прочее и прочее. Однако, стоит заметить, что параметр linksweight в алгоритме учитывается. Так как в старом алгоритме придавалась большая значимость количеству ссылок, которые делаются на запись, и кроме того есть механизмы обнаружения спамерских ссылок, то в новом алгоритме я оставляю требование на наличии хотя бы одной неспамерской по версии Яндекса ссылки.

Второй вопрос, почему четыре параметра входят в функцию с одинаковыми весами. Ответ: При построении интегрального коэффициента глупо было бы отдавать предпочтение одному из параметров. Записи должны отсеиваться на основании тех параметров, которые определяют текущее состояние экспертной системы, а следовательно базируются на выборке из всех записей блогосферы, а не одной конкретной, о которой накрутчикам известно все и они могут подкрутить любой из параметров. С такой точки зрения, все четыре параметра равноценны, однако, у меня есть большое недоверие к параметру посещений, так как он весьма условный и вероятно считается некорректно. Но это не так важно, так как наш интегральный параметр задает лишь критерии сортировки записей перед выборкой и не является определяющим при помещении записи в ТОП.

В заключение отмечу, что в единицу времени в ТОП помещается только одна запись, так как эта операция меняет основные параметры экспертной системы и следовательно дискретна. За день в ТОП может попасть не более 70 записей. Если этого будет много, то я уменьшу этот параметр.

В следующий раз я затрону тему фильтров 1)по темам дня 2) отсеивание ссылок на плохие сайты 3) отсеивание дублей методов сравнения слов-низкочастотников в постах находящихся в ТОПе. А пока, результат работы нового алгоритма формирование рейтинга популярных тем блогосферы публикуется на сайте beta.topbot.ru. Присылайте вопросы на topbot@ya.ru.


Метки:   Категории:Yandex | Code


Новости в IT

Привлекла мое внимание новость об открытии технологического центра в Москве от Микрософта - стоимостью аж 300 млн.руб, причем крупнейший в Европе, неужели больше ни одной стране не нужен? Центр создан с целью тестирования крупно масштабных IT-решений российских компаний. И вот тут мне режет глаз цифра в 300 млн. - ведь именно такой бюджетный расход у нашего МВД за последние 3 года на технологическое обеспечение от Микрософта. Это не только "лицензионная винда", но и услуги консультантов, mssql сервера, biztalk сервера, сертификационные курсы админов - как раз все то, что покупалось для создания "крупно масштабного IT-решения". И для чего центр - чтобы дальше доить дойную корову. С других стран Восточной Европы видимо нет такого хорошего удоя.
В итоге хороший, хоть и не совсем корректный, пример того, как деньги от глупых перетекают к умным.

Кроме того, меня порадовала фантазия журналистов про яндекс топ, которая не имеет под собою фактов, и все утверждения в ней можно доказательно опровергнуть, но я не буду себя утруждать.

Метки:   Категории:Blogs | Yandex | news | idea


Рейтинг Блогосферы - ОБНОВЛЕНИЕ

На днях в СМИ появились непонятные статьи о том, что рейтинг русскоязычных блогов закрывается. Тут стоило прояснить, что ничего не закрывается, а произойдет лишь обновление алгоритма ранжирования записей и то, в декабре этого года. Все самые обсуждаемые темы по прежнему будут доступны через сеть блогов topbot.ru и вся статистика будет доступна все там же - topbloger.ru. Необходимость обновления алгоритмов работы ТОПа обусловлена большим числом рекламных сообщений, которые стали попадать в ТОП. Последней каплей стало попадание 31 октября 4х записей одинакового содержания "МВД РАЗГОНЯЕТ ПЕНСИОНЕРОВ". Найти эти записи можно на странице, введя в поиск по названию указанную выше фразу (После того как мне позвонили с требованием убрать их - я стер часть копий). Перейдем теперь к рассмотрению алгоритма ранжирования самых обсуждаемых тем русскоязычной блогосферы. Новой его особенностью будет то, что алгоритм помещения записи в ТОП будет публиковаться открыто в моих блогах. До момента обновления я буду результаты работы нового алгоритма доступны на странице beta.topbot.ru Итак, как же работает ТОП? Имеется еженедельная куча всех стоящих для прочтения постов. Для каждой записи строится оценочная функция. Исходя общей теории экспертных оценок имеем, что вес записи в блоге равен композиции трех функций BlogPost(n) = F(comms,views,commenters,links)*H(comms,views,commenters,links)*C(theme,copies,time) - функции состояния объекта, истории объекта и функции коррекции от связей объекта с экспертной системой.Далее...

Метки:   Категории:Blogs | topbot | Yandex


Yandex: Экстрасенсы и кривые алгоритмы.

С каждым днем все больше поражаюсь тому, что происходит на страницах Яндекс поиска по блогам. Сегодняшний день не стал исключением. Сегодня в десятку самых популярных блогеров вошел некто Мехди Вафа с блогом на майл.ру. Историю его роста можно увидеть на топблогере. И если год назад нахождение в 10-ке рейтинга одного дневника с майл.ру было уже чем-то подозрительным, то сейчас там "висят" целых 2. Итак, Мехди Вафа возглавляет центр экстрасенсов (боюсь назвать их шарлотанами, а то мало ли что наколдуют), поэтому выбор площадки майл.ру для ведения дневника - вполне обоснован. Далее, как говорит нам Yandex, у дневника аж 75тыс друзей, в то время как сам mail.ru показывает только 10тыс читателей(ps: на этой странице переключение вкладок под оперой не пашет). А 100тыс - это число тех, кто имеет доступ к его записям, но не читает регулярно в ленте. Это известное искажение понятия "дружбы" на mail.ru, помогающей ей строить красивые рекламные отчеты о раскрутке брэндов. Странности добавляет то, что уважаемый Вафа день назад закрыл дневник ото всех, кроме друзей, и теперь мы имеем один из самых популярных дневников по версии Яндекса закрытым. В любом случае будем надеется, что такая ошибка рейтинга - следствие африкаского аутсорсинга у наших чернокожих братьев(а не желание отдельных личностей творить кривой рейтинг) - будет исправлена в кратчайшие сроки и все виновные будут скормлены акулам. Далее...

Метки:   Категории:Blogs | bugs | Yandex


Major Updates

Мое внимание привлекли 2 новости мирового масштаба:
1) ЖЖ по прошествии 3х лет сотрудничества открыло-таки поиск по ЖЖ на базе Яндекса, благодаря этому я не могу найти сам себя.
2) GoogleReader обрастает все большим количеством сложных разделов, сегодня они сделали некий "ТОП"(Popular Items) фидов на основе "Нравиться"(Likes) от читателей. Этот топ не кастомизирован по языку и пугает большим обилием постов, которые бы я в жизни не стал читать.

Метки:   Категории:Yandex | Livejournal | Google | news


Spam at Blogs.Yandex page

На днях обнаружил, что спамеры успешно порвали рейтинг Яндекса по блогам. Удалось им это сделать с помощью рейтинга по посещениям. Если его открыть, то там все записи копируют друг друга и содержат рекламу. При этом цифры показывающие число просмотров у записей просто зашкаливают, вероятно спамеры просто покупают порнотрафик или трафик с маркетгрида. Вариант, что Яндекс криво считает посещения - отпадает, так как если взглянуть на сообщения в сообществе talking_room, то они все до единого попали в ТОП по посещениям, при этом вначале делался пост, а потом накручивался трафик. Также это доказывает, что кривой алгоритм Яндекса не ищет дублирующие сообщения в ТОПе.

Разобраться с этой ситуацией в интересах не только Яндексу, но и блогохостингам (ЖЖ в частности), так как эти посты содержат рекламу, с которой ЖЖ ничего не получает.

Метки:   Категории:Blogs | bugs | Yandex


Inside: Яндекс у берегов Африки

Анализируя выдачу Яндекса случайно наткнулся на ссылку на домен YANDEX.ST, где лежала картинка http://yandex.st/ppb/2.5/i/lj_community.gif. Зачем вдруг Яндекс решил мне выдать картинку с далекого сервера - загадка. Как оказалось домен действительно принадлежит Яндексу и был заведен всего МЕСЯЦ НАЗАД одним из его сотрудников. Если расшифровывать ссылку на картинку, то "PPB" - это "Поиск по блогам", "2.5" - версия. Если предположить, что на основной странице по блогам находится версия 2.0, то неисключено, что кто-то разрабатывает и/или тестирует систему мирового охвата.

PS: Доменная зона .ST принадлежит "Демократической Республике Сан-Томе и Принсипи" у восточного побережья Африки на островах с населением 160тыс. чернокожих потенциальных сотрудников Яндекса.

Метки:   Категории:Blogs | Yandex | idea


Statistics of Blogs.Yandex

Прошло ровно 5 месяцев с того момента как Яндекс поменял страницу с ТОПами по блогам, заменив ее на 4 рейтинга: сводный, комментарии, ссылки, посещения.
За эти месяцы во все четыре рейтинга попало примерно 13500 уникальных постов. Это 2700 постов в месяц или 90 постов в день. Примечательно, что 389 поста сумели засветиться во всех четырех рейтингах 1191 в трех из четырех и 9222 - в двух. Таким образом, с вероятностью 70% пост, попадающий в один из ТОПов, попадет в еще один ТОП. И можно сделать вывод, что это неспроста и рейтинги взаимозависимы и ТОП Яндекса по блогам, как система оценки качества поста, реализован коряво. Как следствие мы наблюдаем посты одних и тех же личностей на всех 4х страницах и только иногда проскакивают никому неизвестные блогеры.

Метки:   Категории:Blogs | Analytics | Yandex


BlogsAPI published-FOAF-parser

После некоторых раздумий выложил исходники BlogsAPI в опен сорс. Мне не жалко, если кто будет их использовать для своих проектов, ведь главное, что они будут написаны на .Net. Большую часть Юнит-тестов я исключил из проекта, чтобы не палить пароли от реальных аккаунтов. Отдельно обращаю внимание на то, как с помощью библиотеки парсить FOAF файлы:Далее...

Метки:   Категории:Blogs | Twitter | Yandex | Code


RDF/FOAF: Start point

На днях сделал реализацию .Net парсера различных FOAF файлов публикуемых блогхостерами на базе простой XML сериализации в рамках библиотеки BlogsAPI. Планирую в ближайшее время выложить для всех. Надеюсь это упростит для многих понимание и использование информации публикуемой в RDF формате. Пока изучал различные модификации FOAF в рунете, составил следующий список некорректных на мой взгляд моментов:

FOAF (http://xmlns.com/foaf/spec/)
1) Тэг foaf:Person может содержать вложенный тэг foaf:Person. Это пережиток прошлого и может вносить путаницу в виде рекурсии.
2) Часто встречается неправильное использование тэгов "dc:*" как аттрибутов, вместо тэгов.
3) Много "мертвых" элементов в статусе "unstable" и "testing", а также многочисленные поля единого семантического свойства, но не объединенные единым тэгом. Например, yahooID, openid.
4) Формат разработывался с 2004года, и многие примеры в спецификации устарели, либо имеют неправильную запись. Однако, люди которые впервые знакомятся с RDF/FOAF принимают их как эталон и продолжают пложить ошибки.
5) Раздражает и усложняет сериализацию необходимость указывания тэга foaf:knows, вместо того, чтобы одним тэгом окаймить весь массив связей.


YaFoaf (http://api.yandex.ru/blogs/doc/indexation/appendices/foaf-profile-sample.xml)
1) Неправильная запись "<foaf:img>http://img.ya.ru/userpic/1051645/90316</foaf:img>",
правильно: <foaf:img rdf:resource="http://img.ya.ru/userpic/1051645/90316" />
либо: "<foaf:image>http://img.ya.ru/userpic/1051645/90316</foaf:image>"
2) Аналогично для тэга foaf:homepage
3) ya:firstNode, ya:middleName, ya:secondName - выглядят как тавталогия, если учесть что их аналоги есть в "foaf:"
4) "foaf:dateOfBirth" - такого тэга нет, правильно "foaf:birthday"
5) ya:blogActivity - идиотизм задавать его для каждого из 4х параметров, нет чтобы один тэг, а внутри 4 различных подкласса для постов, комментов, ссылок и читателей. Видно, что копировали форму записи с foaf:knows


FOAF на li.ru
1) Ya:RSS - удобная замена для ya:feed, Но не документирована
2) ya:location - тоже какая-то самодеятельность от лени.
3) foaf:name и foaf:nick заполнены как-то странно, в итоге в поле name всегда пишеться номер блогера в базе дынных


FOAF на livejournal.com
1) общая неточность с foaf:dateOfBirth вместо foaf:birthday
2) Вводится дополнительное пространство имен LJ, но можно было бы обойтись dc:title и dc:description, как аттрибуты foaf:Document.
FOAF на ya.ru
1) Нигде не заполнен "реальный" ник пользователя, придется его извлекать из урла.


Выводы:
1) Я бы пересмотрел бы весь формат и задал бы новый исходя из теории "Социально Значимых Объектов", разбив весь RDF файл на 4 секции, но это мечты.
2) Видно, что нет единства в формировании FOAF файлов и все относятся к этому спустя рукова, так как пользу это дает только примитивному поисковику по профилям блогеров.

Метки:   Категории:Blogs | Semantic Web | Yandex


Арзамас-поиск на arsearch.ru

Случайно наткнулся на ресурс arsearch.ru, думая, что он расшифровывается как AugmentedRealitySEARCH и как то связан с российскими разработками в дополненной реальности (Особенно после прошедшего на днях gov2summit, где TimOreilly сказал: "Дополненная реальность, должна стать новой инфраструктурой для публикации информации", а если есть публикация, то должен быть и поиск).
Однако, сайт приветствует нас крупной надписью "Арзамас-ПОИСК" и представляется собою wiki-поиск по городу Арзамас. Такой заголовок очень звучно перекликается с новой системой ранжирования Яндекса, которую уже как неделю можно тестировать. Однако на arsearch.ru у всех желающих есть возможность поправить описание, что же такое Поиск-Арзамас и как Арзамас устроен.

Метки:   Категории:humor | Yandex | news


Yandex.Blogs : Search form for your blog!

Только что на Яндексе появилась новая возможность, связанная с блогами. Теперь вы можете вставить форму для поиска по своему блогу на страничку своего сайта-блога. Таким образом, Яндекс хочет увеличить посещаемость поиска по блогам, которая на сегодняшний день составляет порядка 250тыс. чел. в день:
Установите в своём блоге, форуме или на блогосервисе форму поиска. Это позволит вам не потеряться в записях и комментариях и быстро находить там нужную информацию.

По сути ничего сверх-нового. Открытым остается вопрос: "Добавят ли мой блог в список индексируемых яндексом, если я на него повещу такую форму" - Ведь как же я могу искать в своем блоге, когда его не в индексе? Напомню, что мои автоматические блоги типа topbot.ru - не присутствуют в индексе яндекса по причине слишком частого обновления контента - примерно 50 сообщений в день.

Метки:   Категории:Blogs | Yandex | news


Yandex.Blogs - commentors

Только сейчас заметил, что в топе яндекса по комментариям написано число "комменТАТОров", а не "коменТАРИев". Это может означать лишь то, что на попадание в ТОП влияет число различных блогеров (ботов, виртуалов и т.п.) прокомментировавших запись, а не общее число комментариев, как может показаться.
К слову, чтобы попасть в топ блоговых записей Лиру достаточно 3х человек, которые активно накидают комментарии за короткий промежуток времени.

Метки:   Категории:Blogs | Yandex


Рейтинг авторитетности блогов

Давно уже не слежу за авторитетностью блогов ввиду ее сильной неадекватности, однако, вчера в ней случился очередной пересчет рейтинга, который сделал замедные передвижки среди блогеров. Не исключаю, что были даже сделаны какие-то изменения в алгоритмах Яндекса. Следствием изменений стало то, что опять какие-то левые люди с полуспамовыми блогами приподнялись: 1, 2, 3.
И в довершение маразма можно видеть, что "очень популярный" корпоративный блог яндекса находится одновременно в лидерах рейтинга как среди блогеров, так и среди сообществ.

Метки:   Категории:Blogs | Yandex


http://yandex.livejournal.com/

Яндекс запустил трансляцию своих новостей в ЖЖ. Теперь они наконец-то смогут попадать в свой собственный топ по блогам не вызывая подозрений в подкрутке топа. Умно.

Метки:   Категории:Yandex | news


Кто я?

Программист. Я слежу за блогосферой и знаю, как будет развиваться интернет. Когда у меня есть время я даже прилагаю для этого усилия. Подробнее

Последние комментарии

Не отображать

Topbot at FeedsBurner

Облако тэгов

Мои Твиты

Twitter сентября 14, 17:50
Цвет настроения черный http://dlvr.it/QkCWGn https://twitter.com/f1ashr/status/1040659099577282561/photo/1

Twitter сентября 13, 01:55
.Net - Контексный поиск с учетом русской и английской морфологии http://dlvr.it/Qk1GLz

Twitter сентября 13, 01:32
коломенский кремль: альтернативная история 2 http://dlvr.it/Qk1BxG https://twitter.com/f1ashr/status/1040050452677701632/photo/1

Twitter сентября 13, 01:32
Найдено применение для дополненной реальности http://dlvr.it/Qk1BsW https://twitter.com/f1ashr/status/1040050446155436032/photo/1

Twitter сентября 13, 00:59
Россия будет воевать http://dlvr.it/Qk15Rh

Twitter сентября 13, 00:59
Диджеи будущего http://dlvr.it/Qk15Lx

Twitter сентября 13, 00:26
Теория общего знания - (Заповеди информационного общества, часть 12) http://dlvr.it/Qk0zsZ

Twitter сентября 12, 23:21
Обновлен робот instagram для лайков http://dlvr.it/Qk0mK6

Twitter сентября 12, 20:02
Пользователи умудрились поломать гео-локацию в Инстаграм http://dlvr.it/QjzzRL

Twitter сентября 12, 20:02
Про самолет Ту-154 и убийство посла http://dlvr.it/QjzzDG https://twitter.com/f1ashr/status/1039967405378658304/photo/1

Twitter сентября 12, 18:56
Разбор 2 сезона Мир Дикого Запада (WestWorld2) http://dlvr.it/Qjzgnv https://twitter.com/f1ashr/status/1039950797130199040/photo/1

Twitter сентября 8, 20:46
Британцы запилили рекламный ролик, который стал вирусным на весь мир http://dlvr.it/QjZ0bK https://twitter.com/f1ashr/status/1038528905970208768/photo/1

Twitter сентября 1, 07:42
Яндекс заменил ТИц на ИКс http://dlvr.it/Qhm5Ms

Twitter августа 24, 07:51
Почему на рассвете резко холодает и выпадает роса? http://dlvr.it/QgwSff https://twitter.com/f1ashr/status/1032898080767541251/photo/1

Twitter августа 23, 01:09
Самоуправляемые ездящие картошки http://dlvr.it/QgnhXc

Twitter августа 22, 19:11
Что такое любовь? Песнь льда и пламени http://dlvr.it/QgmPPH https://twitter.com/f1ashr/status/1032344431158951936/photo/1

Twitter августа 22, 13:47
Мир Дикого Запада 2-й сезон http://dlvr.it/QgkpBm

Twitter августа 22, 12:42
Игра Престолов детальный разбор 7 сезонов http://dlvr.it/QgkSpD https://twitter.com/f1ashr/status/1032246535336022016/photo/1

Twitter августа 22, 10:29
Танец китайских военных http://dlvr.it/QgjrK3 https://twitter.com/f1ashr/status/1032213200412979200/photo/1

Twitter августа 22, 10:29
Где россияне праздновали новый 2017 год http://dlvr.it/QgjrJL https://twitter.com/f1ashr/status/1032213193291051008/photo/1

Мой твиттер

Копирайт

Все мысли, высказанные в блоге, являются моим мнением и за это мнение меня никто не забанит! Кроме того, никто не имеет право копировать материалы блога без использования ctrl+C/V!

© Copyright 2008