Двач (2ch) атаковало Azure

Выяснилось, что этой ночью сетевые хулиганы, известные как анонимы с борды "Двач" атаковали сайт Интернет-ополчения и заодно зацепили своей атакой мой сайты расположенные в облаке Windows Azure. Это было обусловлено тем, что у меня в индексе накапливается много информации, в том числе и копия постов интернет ополчения. Если первое они быстро положили, то второе, как работало, так и продолжило работать. (Отчасти так как функционал там простой - простая выдача данных, без сложных операций залогиниваний и т.п.). Ну и скриншоты в тему:

По факту анонимы используют программу с целью забивания канала у сайта жертвы. В логах azure это выглядело так:

И конечно же этого оказалось недостаточно, чтобы остановить работу мульти-инстансового сервиса, который даже заточен на то, чтобы регулярно "падать"(перезапускаться) и я использую сервис распределенного мониторинга pingdom.com, чтобы вовремя узнавать о сбоях в работе. Его логи также не показали никаких сбоев (большая величина пинга обусловлена тем, что большая часть серверов сервиса в США, а азур в Европе):

Метки: ,   


Обновление в топе, видеотоп

Вчера случился сбой подсчета трендов твиттера. Но сегодня вроде все нормально и уже обновилось. Кроме того с сегодняшнего дня в потоковом режиме индексируются русскоязычный Ютую, поэтому в Видео топе начали появляться совершенно незнакомые ранее авторы, которые действительно популярны. Что с этим делать и как вернуть привычные ролики про политику - пока не понятно. Но можно кликать на иконку платформы или пользоваться простым поиском по ютубу с любым интересующим словом, например Каникулы в Мексике. В видео-топе появились совершенные шедевры. Да, из области видео-игр, но это очень смешно.

Метки: , , ,   


top twitter vs t30p

Топ твиттера успешно попал в топ твиттера. Информационный поток замкнулся сам на себя, achievement unlocked так сказать.

Метки:   


Техническое по топу

На выходных переключились с A записи по дефолту, на CNAME с www (картинка ниже приведена). Это последний этап помещения топа в облачную архитектуру. Сейчас все выглядит примерно следующим образом.
  • За DNS отвечают 5 серверов Dynect с технологией Anycast. Их же использует Твиттер.
  • Веб-часть выдает Azure CDN, который имеет точку в москве
  • Картинки хранятся в BlobStorage вместимостью 100ТБ и доступом до 5000 обращений в секунду.
  • База данных в Amazon RDS multi A-Z, large.
Итого, из любой точки мира должно открываться за 4 секунды, выдержит любые нагрузки, к ядерной войне готовы.
Неудобство CDN лишь в том, что используя OpenDNS я постоянно попадаю на сервер CDN в америке, к которому видимо мало обращений, так что постоянно попадаю на долгий "холодный старт" прокси-сервера CDN.

Остается немного и можно конкурировать с Яндексом
  • Перенести контекстное индексирование постов в облако. Благо есть библиотека Lucene Azure + Lemmatizer
  • Запустить динамическое обновление социального авторитета, а то пока он статический.
  • Разобраться с влиянием ссылок твиттера на топы.
  • Много других мыслей, например, объединить Сводный и Чистый топы, и добавить "НародныйТОП", где можно было бы голосовать за записи.



Метки: ,   


Московские тренды твиттера

Достаточно недавно Твиттер ввел тренды по России, а фактически по Москве, Питеру и Новосибу. Сразу же туда стали попадать разные вещи на русском языке и многие даже начали путаться, что это мировые тренды. В любом случае разные мировые сервисы тоже начинают активно ретвитить русские хэштэги попавгие в "российские тренды" в надежде сбора трафика. За все то время, что я наблюдаю более детально то, что происходит с российскими трендами можно с уверенностью сказать, что для попадания в "российские тренды" достаточно 600 уникальных твитов с тэгом за 6 часов, а если взять 1000, то это уже и первое место. С экономической точки зрения - это примерно 5000р расхода на ботов для выведение в тренды любого слова.

Заодно кратенько новости от т30п.ru:
1) на главных страницах справа кроме трендов твиттера выводятся "герои дня" - фактически наиболее частые словосочетания.
2) последнее время можно наблюдать перебои с доступом к t30p, обусловлено это сменой DNS с dnsazure (durabledns) на dyn.com , которым пользуется и сам твиттер. Первый упал не предупредив, а второй что-то очень медленно обновляется.

Метки: ,   


Facebook meltdown

Сегодняшнее падение фейсбука уже широко обсуждается на том же хабре. Говорят ошибка была в DNS. Наглядно падение активности русских людей в фейсбуке видно на странице рейтинга, где число talks упало суммарно аж на 12%. Сейчас все восстановилось. Куда более интересна проблема спама, которая захлестнула ЖЖ и прежде всего выдачу яндекса по блогам как раз после окончания выборов. Странно, что яндекс до сих пор не бьет тревогу. Очень много ботов пишут теперь не про политику, а про всякие турпоездки да авиаперелеты. Это негативно влияет на качество работы топа по части ЖЖ, поэтому все больше сообщений попадает в топ из ГуглПлюса.

Метки: ,   


Twitter Streaming and Twitter Trends

Не так давно Яндекс заявил об интеграции с Твиттером по технологии firehorse. Это доступно не каждому, а только избранным, как можно видеть в документации. Зато существует немалополезная функция track, которая уже реализована в Twitterizer 2.4, а значит и в BlogsAPI 0.4.5. На практике она используется следующим способом
Copy Source | Copy HTML
  1. public override void Work(object sender, ElapsedEventArgs e)
  2. {
  3.     try
  4.     {
  5.         var uso = new UserStreamOptions()
  6.                                     {
  7.                                         AllReplies = true,
  8.                                         Count = -100,//отмотаем 100 назад
  9.                                         Track = new List<string>(
  10.                                             "слово1,слово2,слово3".Split(','))
  11.                                     };
  12.         TwitterStream stream = new TwitterStream(tokens, Twitter.appName, uso);
  13.         IAsyncResult result = stream.StartPublicStream(
  14.             StreamStopped,
  15.             NewTweet,
  16.             DeletedTweet,
  17.             OtherEvent
  18.         );
  19.         // Wait for the WaitHandle to become signaled.
  20.         result.AsyncWaitHandle.WaitOne();
  21.         // Close the wait handle.
  22.         result.AsyncWaitHandle.Close();
  23.     }
  24.     catch (Exception exception)
  25.     {
  26.         FireException(exception);
  27.     }
  28. }

Благодаря использованию потоковой функции Track удалось интегрировать T30P с Твиттером плотнее и теперь при формировании топа Твиттера, как по твитам, так и по трендам, есть полная независимость от Яндекса. А новые алгоритмы фильтрования ботов позволяют делать топ действительно качественным. По нагрузке получилось, что не смотря на поток в 2млн. русскоязычных сообщений в твиттере в сутки, токлько примерно 1 сообщение в 2 секунды не является спамовым и является популярным сообщением или обсуждением популярного сообщения, что заметно упростило задачу.

Метки: , , ,   


обо всем по немногу

  • Очень интересная флешка с информацией о размерах всех известных человечеству объектах
  • Оптимизация 100 из 100 по версии гугла для блога на BlogEngine достижима
  • В ЖЖ на след.неделе появится социальный капитал, который уже можно смотреть на страницах топа, сейчас там обновленная версия по вчерашнее число.
  • Для рейтинга по фейсбуку появилась возможность вывести колонку с кнопками лайков, что позволяет удобно залайкать почти все русскоязычные страницы.
  • В ходе тестирований ссылки с русскоязычными буквами признаны неполноценными в некоторых браузерах, особенно в Хроме, поэтому проставляем только англоязычные

Метки: ,   


@masterhost_ru второй день лежит

мастерхост падает вторую ночь подряд, со всеми своими DNS, что также привело к падению топа постов блогосферы Т30П. Однако, не смотря на это, топ можно открыть по прямому адресу 89.108.115.22. DNS еще не успели смениться.

Метки: ,   


Обзор блогосферы

Обзоз блогосферы за 2011 год скачать можно тут . В отчете собрана текущая статистика т30п до ресета. Напоминаю, что каждый год в новый год сбрасываются некоторые счетчики, такие как число постов в текущем году.

Метки: ,   


Кто я?

Программист. Я слежу за блогосферой и знаю, как будет развиваться интернет. Когда у меня есть время я даже прилагаю для этого усилия. Подробнее

Последние комментарии

Не отображать

Topbot at FeedsBurner

Реклама

 

копирайт

Все мысли, высказанные в блоге, являются моим мнением и за это мнение меня никто не забанит! Кроме того, никто не имеет право копировать материалы блога без использования ctrl+C/V!

© Copyright 2008