Информация

История

2018

Как Habr.com обманывает партнёров

3 июля 2013 г. коммерческий директор компании «Тематические медиа» Алексей Поликарпов обратился в TAdviser с предложением обменяться баннерными рекламными кампаниями между TAdviser и блог-платформой для разработчиков «Хабрахабр».

19 августа того же года TAdviser полностью выполнил взятые на себя обязательства и получил подтверждение об этом со стороны «Тематических медиа».

16 мая 2014 года TAdviser отправил на размещение в «Хабрахабр» собственные баннеры. В ходе кампании планировалось выбрать только незначительную часть гарантированного «Тематическими медиа» объема. Размещение было успешно проведено.

В течение следующего периода у TAdviser не было никаких потребностей в рекламе, рассчитанной на аудиторию «Хабрахабр».

1 октября 2018 года TAdviser отправил письмо в «Тематические медиа» с указанием дат для открутки оставшегося объема баннеров. Ответ оказался неожиданным. Некий Александр Телицын сообщил буквально следующее:

Между нами не было подписано никаких документов (насчёт обмена баннерами), и вы обсуждали все договоренности с сотрудниками, которые у нас больше не работают. Сейчас готовы предложить только коммерческий вариант размещения рекламы.

Инициировав сделку, компания «Тематические медиа» не признает ценность переписки по электронной почте и в одностороннем порядке отказывается от собственных обязательств, при этом даже не принося никаких извинений. TAdviser рассматривает данное заявление как прямой обман и сожалеет о появлении на рынке команд, сотрудники которых полностью лишены представлений о деловой этике.

Geektimes.com закрыт

28 мая 2018 года Geektimes.com, ранее выделенный ИД «Тематические медиа» из Habrahabr.ru, был закрыт. Все материалы были возвращены на материнский сайт.

Переименование в Habr.com

С 24 апреля 2018 года блог-платформа «Хабрахабр» переименована в Habr.com и объявила о старте международной экспансии.

2015: Запуск издания «Мегамозг»

В январе 2015 года стало известно, что «Хабрахабр» запустил новый сайт «Мегамозг» для стартаперов и менеджеров в ИТ. Сервис коллективных блогов для программистов «Хабрахабр» разделился пополам: от него отделился новый проект «Мегамозг», который позиционируется как сообщество управленцев в сфере информационных технологий.

2014: Из Хабрахабра выделяют издание GeekTimes

13 октября 2014 года часть контента площадки Habrahabr.ru переносят на отдельный домен и запускают блог GeekTimes.ru. Тогда глава «Хабрахабр» Денис Крючков рассказывал, что такая идея витала давно, но окончательно сформировалась после внесения «Хабрахабра» в реестр организаторов распространения информации Роскомнадзора.

Чтобы вывести «Хабрахабр» из-под рисков, связанных с вниманием Роскомнадзора, и был запущен Geektimes, куда переехали все «проблемные» темы. Над Geektimes также работает команда редакторов, занимающихся наполнением сайта вместе с пользователями.

2013: Денис Крючков берет кредит в «Яндексе» и выкупает долю Mail.ru

Основатель «Хабрахабра» Денис Крючков выкупил у Mail.Ru Group долю в компании «Тематические медиа», которой и принадлежит ресурс Habrahabr.ru. Акции Mail.Ru были выкуплены на заёмные средства, которые Крючкову предоставил «Яндекс».

2006: Запуск платформы, Басов соинвестор

Соинвестором издания на ранней стадии выступал Алексей Басов. Его вложения, по его словам, полностью окупились, после того как фонд DST (позже Mail.ru Group) купил у него долю в «Хабрахабр».

Ожидаемая создателями аудитория проекта — прогрессивно мыслящие люди, интересующиеся будущим ИТ-рынка в целом и интернет-экономики в частности. Предполагалось, что Хабрахабр будет одинаково интересен программистам и журналистам, рекламщикам и верстальщикам, аналитикам и копирайтерам, менеджерам высшего и среднего звена, владельцам крупных компаний и небольших фирм, а также всем тем, для кого ИТ — это не просто две буквы алфавита.

Сообщалось, что в Хабрахабр заложена «модель совместного творчества людей». Совместно с редакцией Хабрахабра люди наполняют сайт жизнью и смыслом: они пишут в коллективные и персональные блоги, публикуют персональные аудио- и видеопередачи, читают блоги компаний, ищут новую работу и, конечно же, общаются с другими людьми, объединёнными общими идеями и целями.

Кто виноват?

Прежде всего виноват бренд, под которым продаются телефоны. Бренд заказывает разработку самого устройства и прошивки для него у OEM-производителя, но не проверяет конечное устройство на наличие незадекларированных возможностей. По какой-то причине, многие бренды не выкладывают прошивку на сайт, а отправляют обновлять устройство в сервисный центр в случае проблем.Бренды F+ и BQ отрицают проблему или умалчивают о ней.

OEM-производитель готов внедрить любой каприз бренда или производителя сторонних модулей, за ваши же деньги.

Отсутствие в России специализированного министерства, которое бы занималось подобными проблемами. Минцифры (бывший Минсвязи) проверяют только сертификацию продукции на соответствие мировым и российским стандартам связи, но не функциональность конечного устройства.Минцифры порекомендовало обращаться в Роспотребнадзор, перенеся проблему в плоскость продавец-покупатель.

Классификация нежелательных функций

Вредоносную активность телефонов можно разделить на три категории:

  1. Отправка СМС и выход в интернет для «отслеживания продаж»Наиболее безобидная функция, не наносящая значительный материальный урон мобильному счёту. Устройство без ведома пользователя отправляет СМС (на обычный российский номер) или выходит в интернет, передавая IMEI-номер телефона и IMSI SIM-карты неустановленной организации или частному лицу.Передача данных осуществляется либо один раз до сброса устройства в заводское состояние, либо после каждого извлечения аккумулятора.

  2. Троян, отправляющий СМС на платные (короткие) номера, предварительно загрузив текст и номер с сервера через интернетФункция, систематически списывающая средства со счёта мобильного номера. Помимо частого автоматического и скрытного выхода в интернет (что само по себе расходует деньги на не-пакетных тарифах), мобильное устройство отправляет отдельно тарифицируемые СМС-сообщения на короткие номера, перехватывает подтверждающую СМС и отправляет текст подтверждения в ответ.

  3. Бэкдор, перехватывающий входящие СМС-сообщения и отправляющий их на серверПозволяет злоумышленникам использовать ваш номер телефона для регистраций на сервисах, требующих подтверждения через СМС. Телефон периодически выходит в интернет и получает команды с сервера, результат выполнения которых отправляется обратно на сервер.

Три кита мобильных SoC

Существует три основных производителя систем-на-чипе для кнопочных звонилок:

RDA Microelectronics

Spreadtrum

Mediatek

Архитектура

MIPS

ARM

ARM

Стандарты

2G

2G/3G/4G

2G/3G/4G

Более не выпускаются, но всё ещё продаются.Компания куплена Spreadtrum.

Ребрендированы в Unisoc, но продолжают выпускать чипы под старым брендом.

Имеют линейки для смартфонов, кнопочных телефонов, IoT, встраиваемых устройств, и т.д.

Не обязательно покупать десятки и сотни телефонов для проведения полноценного тестирования: достаточно купить несколько моделей разных производителей SoC и с разными операционными системами.

Контакты «Хабра» с силовиками

После добавления «Хабра» в реестр ОРИ ресурс действительно стал получать запросы на предоставление информации о пользователях. К примеру, в 2015 г. таких запросов было два – один от Федеральной службы по контролю за оборотом наркотиков (ФСКН) и второй от Роскомнадзора. В обоих случаях портал предоставил ведомствам необходимую информацию.

«Хабр» не всегда раскрывает информацию о своих пользователях

В 2016 г. число подобных запросов возросло – к примеру, Министерство внутренних дел России (МВД) четырежды интересовалось подробностями о пользователях (три запроса удовлетворены, один отклонен). Аналогичный интерес дважды проявляла Федеральная служба безопасности России (ФСБ) – в обоих случаях «Хабр» раскрыл требуемые сведения.

Телемедицина, нейрокомпьютерные интерфейсы и роботы: что ждет сферу социальных инноваций Москвы
Инновации и стартапы

На 2017 г. пришлось четыре запроса информации о пользователях – два от МВД (один удовлетворен, второй отклонен) и два от Федеральной службы охраны России (ФСО), которая оба раза получила нужные детали. В 2018 г. пользователями «Хабра» интересовались лишь единожды – запрос подавало МВД, но получило отказ.

Всю информацию по сотрудничеству с российскими ведомствами «Хабр» публикует в открытом доступе. На момент публикации материала статистика за 2019 г. была недоступна.

[править] Регуляция

Карма

Карма — один из регулирующих механизмов, предназначенных для отсеивания нежелательных пользователей и поощрения полезного вклада. Каждый пользователь Хабрахабра с достаточно высокой кармой может влиять на карму других пользователей, таким образом оценивая полезность его вклада для сайта. В случае понижения кармы до отрицательных значений участник не может писать новые топики, а комментарии ограничиваются по следующей схеме: при карме от −1 до −10 — 1 комментарий в 5 минут (без тегов), от −11 до −30 — 1 комментарий в час, от −31 до −100 — 1 комментарий в день, а при карме ниже −100 можно комментировать только раз в неделю.

После регистрации карма нового пользователя равна 0. До написания первой публикации максимальный размер кармы — 4.

Карму можно нарастить, если писать хорошие посты и давать ценные комментарии к постам. Пользователь с большой кармой имеет дополнительные преимущества:

  • 0 — публикация топиков, использование HTML-тегов, комментирование со скоростью «1 комментарий в 5 минут».
  • 5 — публикация топиков в коллективный блог и голосование за карму и комментарии.
  • 20 — возможность писать в блог «Я пиарюсь»
  • 50 — получение одного инвайта (единовременно).

В день доступно число голосов за карму и топики, равное значению кармы, и число голосов за комментарии, равное удвоенному значению кармы. Число голосов сбрасывается в полночь по Москве.

Достаточно часто встречаются люди, опускающие карму пользователя по т. н. «религиозным» соображениям (например, пользователь Opera пользователю Firefox или наоборот). Также одной из проблем является то, что частенько при «минусовке» комментария или статьи пользователю также опускают карму. В сторону «плюсов» такой эффект наблюдается заметно реже.

Карму можно обнулить, зайдя в свой профиль и нажав на «Reset».

Рейтинг

Комменты на Хабре ценятся по-разному. Иногда полностью асимметрично!

Вот такое распределение…

Рейтинг — второй механизм оценки материалов и участников. Рейтинг есть у пользователей, топиков, комментариев, компаний и хабов.

Рейтинг пользователя вычисляется на основе его кармы, оценок топиков и комментариев. Рейтинг опубликованного топика определяется голосованием пользователей. Обычно топики с рейтингом больше 0 попадают в «Захабренные», а с меньшим — в «Отхабренные». При получении публикацией в профильном блоге достаточного положительного рейтинга она попадает на главную страницу. Рейтинг комментариев также определяется голосованием. Комментарии, получившие достаточное число минусов, отмечаются более светлым цветом шрифта (в прошлом они скрывались под ссылку, как на Лепре).

Рейтинг пользователей также влияет на рейтинг компаний, в которых состоит пользователь, и на величину изменения кармы. Существует пессимизация рейтинга, которая происходит в случае неактивности пользователя.

Посещаемость

Просмотры990 000≈ 32 000 в день
Отказы #%

Время на сайте # мин.

Глубина просмотра #

Месячная примерная помещаемость. Данные за август 2021.

Источники трафика

Прямые заходы ###
Ссылки на сайтах ###
Поисковые системы ###

Социальный трафик

Рейтинг по трафику

1 398 534

Место в мире

География посетителей

Россия 0%

Похожие сайты

geektimes.ru 0%
toster.ru 0%
tproger.ru 0%
xakep.ru 0%
linux.org.ru 0%

История счётчиков
Мы нашли 1 счётчик, связанный с сайтом

Счётчик Найден Исчез Связанные сайты
24049213 07.11.2019 #####
#####
#####
#####
#####
Показать всё

Тест показывает активные и отключенные ранее счетчики систем статистики и связанные с ними сайты. Эта информация может быть полезна в случае, если у конкурента есть неизвестные вам проекты, управление статистикой которых происходит с одного аккаунта — вы сможете их найти. Если в вашими счетчиками что-то пойдет не так, вы также можете это увидеть.

Веб-студии иногда самостоятельно устанавливают счетчики на сайты клиентов и управляют ими с того же аккаунта, что и счетчиком своего сайта. Вы можете сделать анализ сайта студии и благодаря этому тесту узнать, кто ее клиенты.

Обновлено 09.09.2021 01:48

История IP-адресов
Мы нашли
2 IP-адреса, связанных с сайтом

IP-адрес Найден Исчез Связанные сайты
178.248.233.33 05.04.2021 #####
#####
#####
#####
#####
Показать всё
178.248.237.68 07.11.2019 05.04.2021 #####
#####
#####
#####
#####
Показать всё

IP-адреса, найденные когда-либо на сайте. А также сайты, у которых обнаружен такой же IP-адрес.

Обновлено 09.09.2021 01:48

[править] Интересные факты

  • На Хабрахабре значительное влияние получила группировка администраторов русской Википедии (в основном школьников), которые используют своё положение в проекте для заплюсовывания собственных постов и кармы друг друга, а также для заминусовывания оппонентов и их записей. Например, первый анонс Викиреальности был сразу же заминусован несколькими участниками и затем удалён. Впоследствии этот анонс был опубликован как анонс проекта не только о викисреде и Википедии, а обо всех проектах Веб 2.0, получил пять минусов и четыре плюса.
  • Деятельность виртуалов не регламентирована, но администрация оставляет за собой право без предупреждения блокировать дополнительные учётные записи или учётные записи, выдающие себя за известных людей.
  • Как и в русской Википедии, на Хабре могут забанить за «высказывания на внешних ресурсах», так по этой причине был забанен за критику известный блоггер dimok.ru, а за релиз Фрихабра был заблокирован DileSoft, находившийся на 6-м месте среди хабралюдей.
  • Сообщалось о блокировке на 365 дней за поддержку поста, нарушающего правила.

Полномочия учётной записи

Полномочия вашей учётной записи (аккаунта) могут варьироваться в зависимости от способа регистрации. Если у вас нет специального приглашения от кого-то из пользователей, то после регистрации ваш аккаунт будет обладать лишь читательскими правами. Но в любой момент права можно расширить.

ReadOnly

Это базовый тип учётной записи, доступный всем пользователям сразу после регистрации, который позволяет:

  • Читать материалы, опубликованные на сайте, добавлять их в закладки и формировать собственную ленту по интересам;

  • Отправлять личные сообщения другим пользователям сайта;

  • Участвовать в опросах пользователей;

  • Отправлять материалы в Песочницу для получения полноправного аккаунта;

  • Предлагать комментарии к публикациям в течение 30 дней с момента их размещения. Комментарии попадают на модерацию к авторам публикаций и модераторам сайта. Как только хотя бы один из таких комментариев будет одобрен, аккаунту будет автоматически присвоен тип Read&Comment.

Не позволяет:

  • Голосовать за карму пользователей, оценивать публикации или комментарии;

  • Участвовать в рейтинге пользователей, поскольку у пользователей с полномочиями уровня ReadOnly нет кармы и рейтинга.

В профиле с полномочиями ReadOnly отображается кнопка «Подарить приглашение», которой может воспользоваться любой пользователь, у которого это приглашение есть, чтобы подарить ReadOnly-пользователю полноправный аккаунт. Но если у пользователя уже был полноправный аккаунт и в режим ReadOnly его перевели в рамках штрафной санкции за нарушение правил сообщества, то такой кнопки не будет — реабилитироваться можно только через Песочницу.

Read&Comment

Расширенная версия аккаунта ReadOnly, подразумевающая, что у пользователя уже есть как минимум один опубликованный комментарий. Если автор публикации одобрил комментарий от пользователя с полномочиями Read&Comment, то этот пользователь сможет размещать все последующие комментарии к его публикации без предварительной модерации. Если пользователю удастся собрать 10 одобренных комментариев в публикациях 10 разных авторов, то его последующие комментарии будут появляться на сайте без премодерации. Профиль пользователя с полномочиями Read&Comment уже во многом похож на профиль владельца полноправного аккаунта — в нём есть рейтинг и карма, за которую другие пользователи могут голосовать, но с одним ограничением: карма пользователя, не имеющего публикации на сайте, не может быть выше +4. Кнопка «Подарить приглашение» в профиле Read&Comment доступна и ею может воспользоваться любой пользователь, имеющий желание и возможность выдать полноправный аккаунт.

Полноправный аккаунт

Полноправный тип учётной записи, который, в отличие от аккаунтов типа ReadOnly и Read&Comment также позволяет:

  • Размещать материалы сразу на сайте, без предварительной проверки модераторами;

  • Комментировать публикации старше 30 дней.

До тех пор, пока у пользователя нет ни одной публикации на сайте, его карма не может подняться выше +4 — данное ограничение снимается сразу после написания первой публикации. Дальнейший рост кармы даст пользователю новые  и права на сайте, а снижение кармы  их.

[править] Удаление контента

При нарушении правил пользователем он может быть отключен от системы, при этом весь загруженный им контент (топики, комментарии, вопросы) полностью исчезают с сайта, вне зависимости от их рейтинга. Так, например, был стёрт весь контент автора опубликованной в декабре 2012 года заметки «Спамим вместе», которая ничего не нарушала.

15 декабря 2013 года администрацией сайта был закрыт один из самых популярных хабов — «Dura Lex», специализировавшийся на освещении проблем ужесточения законодательства в информационной сфере, цензуре в сети Интернет, и авторскому праву. При этом был стерт весь его контент. Вероятная причина закрытия — обсуждения законов и законопроектов, направленных на регулирование Интернета, часто скатывались в поток критики в адрес российских властей, что вызвало опасения в применении антиэкстремистского законодательства к владельцам Хабрахабра.

Описание API ресурсов и методы

  • — Ресурс работы с комментариями

    • — Возвращает список комментариев к посту по номеру
    • — Добавление комментария к посту по номеру
    • — Положительное голосование за комментарий
    • — Отрицательное голосование за комментарий
  • — Ресурс работы с компаниями

    • — Возвращает посты компании по алиасу компании
    • — Возвращает профиль компании по алиасу компании
    • — Возвращает список компаний
  • — Ресурс работы с «основной» лентой постов

    • — Возвращает «Захабренные» посты из «основной» лентой постов
    • — Возвращает «Отхабренные» посты из «основной» лентой постов
    • — Возвращает «Новые» посты из «основной» лентой постов
  • — Ресурс работы с потоками

    • — Возвращает список потоков
    • — Возвращает «Интересные» посты из потока
    • — Возвращает «Все» посты посты из потока
    • — Возвращает «Лучшие» посты из потока
  • — Ресурс работы с хабами

    • — Возвращает информацию о хабе по алиасу
    • — Возвращает «Захабренные» посты связаные с хабом
    • — Возвращает «Отхабренные» посты связаные с хабом
    • — Возвращает «Новые» посты связаные с хабом
    • — Возвращает список хабов
    • — Подписаться на хаб
    • — Отписаться от хаба
  • — Ресурс работы с постами

    • — Возвращает пост по номеру
    • — Получить мета-информацию постов (не более 30 постов за раз)
    • — Положительное голосование за пост (Этот метод может быть предоставлен дополнительно, по запросу)
    • — Отрицательное голосование за пост (Этот метод может быть предоставлен дополнительно, по запросу)
    • — Нейтральное голосование за пост (Этот метод может быть предоставлен дополнительно, по запросу)
    • — Добавить пост в избранное
    • — Удалить пост из избранного
    • — Увеличить счетчик просмотров поста
  • — Ресурс работы с опросами

    • — Возвращает опрос по номеру
    • — Голосование в опросе за один или несколько варинатов ответа (Этот метод может быть предоставлен дополнительно, по запросу)
  • — Ресурс работы с поиском

    • — Поиск произвольного запроса по постам
    • — Поиск произвольного запроса по пользователям
    • — Поиск произвольного запроса по хабам
  • — Ресурс работы с трекером

    • — Отправить сообщение в трекер на вкладку «Приложения»
    • — Возвращает счетчики новых сообщений из трекера, элементы не отмечаются как просмотренные
    • — Возвращает список постов из трекера,, элементы не отмечаются как просмотренные
    • — Возвращает список подписчиков из трекера, элементы не отмечаются как просмотренные
    • — Возвращает список упоминаний из трекера, элементы не отмечаются как просмотренные
    • — Возвращает список сообщений приложений из трекера, элементы не отмечаются как просмотренные
  • — Ресурс работы с пользователями

    • — Возвращает профиль пользователя API ключа
    • — Возвращает профиль пользователя по логину
    • — Возвращает список пользователей
    • — Возвращает комментарии пользователя по логину
    • — Возвращает посты пользователя по логину
    • — Возвращает хабы на которые подписан пользователь
    • — Возвращает компании в которых работает пользователь
    • — Возвращает список подписчиков пользователя по логину
    • — Возвращает список на кого подписан пользователь по логину
    • — Плюсовать карму пользователя по логину (Этот метод может быть предоставлен дополнительно, по запросу)
    • — Минусовать карму пользователя по логину (Этот метод может быть предоставлен дополнительно, по запросу)
    • — Возвращает список «избранных» постов пользователя по логину
    • — Возвращает список «избранных» комментариев пользователя по логину
  • — Ресурс работы с настройками профиля

    acceptAgreement() — Принять соглашение

Возможности Habr.com

На сайте Habr.com много возможностей. Рассмотрим основные:

  • создание аккаунта и управление им;
  • можно рекламировать свои продукты;
  • настраивать ленту и подписываться на сообщества;
  • есть возможность читать публикации;
  • добавлять посты в закладку;
  • сможете написать первый пост;
  • карма и рейтинг на Хабр показывает, какое отношение пользователей к аккаунту;
  • рассылка и получение новостей с сайта Хабр;
  • можно настроить язык на сайте;
  • добавить пользователей и начать диалог;
  • с помощью поиска можете найти статьи;
  • удобная настройка профиля.

Были собраны рассмотренные возможности сайта Хабр.

Хабы

Это разделы, в которых размещены публикации на определённую тематику. Помогают не только удобно структурировать всю информацию на сайте, но и формировать ленту пользователя — подписываться только на те хабы, которые интересны.

Как подписаться на хаб

Подписаться на хаб (добавить его в свою ленту) можно в центре подписки или с помощью кнопки «Подписаться», которая есть в правой верхней части страницы каждого хаба. В десктопной версии сайта добавить хаб в свою ленту также можно на странице со списком всех хабов, нажав на кнопку «Подписаться», которая появляется при наведении на его название.

Кстати, при успешной подписке эта кнопка сменится на «Покинуть» — так можно отписаться от хаба.

Есть два основных вида хабов.

  • Тематические

    Их тематика наиболее тесно связана с IT. Самые полезные хабы, поэтому их больше всего. Полезны не только читателям в силу своей интересности, но и авторам публикаций — именно написанные в эти хабы публикации могут принести автору добавочное приглашение, поднять рейтинг, а также поправить материальное положение благодаря  (ППА).

    Подразделяются на:

    • профильные

      Непосредственно связаны с IT. Порог минимальной кармы для создания публикации — от 0 и выше. Хабы отмечены иконкой шестерёнки в общем списке хабов и звездочкой в ниспадающем меню выбора хаба при создании публикации. К участию в ППА принимаются публикации только из этих хабов.

    • непрофильные

      Не так тесно связаны с IT, поэтому не участвуют в ППА, а минимальный порог кармы — от +5 и выше.

Из чего состоят хабы?

В каждом тематическом хабе есть подразделы (в виде вкладок) для фильтрации контента:

  • Все подряд

    Все записи хаба в хронологическом порядке с возможностью сортировки по рейтингу публикации: без порога (все публикации подряд), ≥0 (все публикации с неотрицательным рейтингом), ≥10 (все публикации с рейтингом 10 и выше), ≥25 (все публикации с рейтингом 25 и выше), ≥50 (все публикации с рейтингом 50 и выше) и ≥100 (все публикации с рейтингом 100 и выше).

  • Лучшие

    Лучшие публикации хаба в порядке убывания рейтинга за периоды времени: сутки, неделю, месяц, год, всё время.

Невероятно, но факт: у каждого подраздела каждого раздела каждого хаба есть свой отдельный !

Как создать новый хаб?

Если вы считаете, что на сайте не хватает какого-то хаба, то предложите его через форму обратной связи. В сопроводительном письме укажите не менее 10 ссылок на публикации, которые на данный момент расположены «не там».

Как узнать о появлении нового хаба? Через центр подписки на главной странице.

Процесс парсинга

Чтобы понять, как развивался Хабр, нужно было обойти по все его статьи и выделить из них метаинформацию (например, даты). Обход дался легко, потому что ссылки на все статьи имеют вид «habrahabr.ru/post/337722/», причём номера задаются строго по порядку. Зная, что последний пост имеет номер чуть меньше 350 тысяч, я просто прошёлся по всем возможным id документов циклом (код на Python):

Функция пытается загружает страницу с соответствующим id и пытается вытащить из структуры html содержательную информацию.

В процессе парсинга открыл для себя несколько новых моментов.

Во-первых, говорят, что создавать больше процессов, чем ядер в процессоре, бесполезно. Но в моём случае оказалось, что лимитирующий ресурс — не процессор, а сеть, и 100 процессов отрабатывают быстрее, чем 4 или, скажем, 20.

Во-вторых, в некоторых постах встречались сочетания спецсимволов — например, эвфемизмы типа «%&#@». Оказалось, что , который я использовал сначала, реагирует на комбинацию болезненно, считая её началом html-сущности. Я уж было собирался творить чёрную магию, но на форуме подсказали, что можно просто поменять парсер.

«Живых» статей оказалась только половина от потенциального максимума — 166307 штук. Про остальные Хабр даёт варианты «страница устарела, была удалена или не существовала вовсе». Что ж, всякое бывает.

За выгрузкой статей последовала техническая работа: например, даты публикации нужно было перевести из формата «’21 декабря 2006 в 10:47» в стандартный , а «12,8k» просмотров — в 12800. На этом этапе вылезло ещё несколько казусов. Самый весёлый связан с подсчётом голосов и типами данных: в некоторых старых постах произошло переполнение инта, и они получили по 65535 голосов.

В результате тексты статей (без картинок) заняли у меня 1.5 гигабайта, комментарии с метаинформацией — ещё 3, и около сотни мегабайт — метаинформация о статьях. Такое можно полностью держать в оперативной памяти, что было для меня приятной неожиданностью.

Начал анализ статей я не с самих текстов, а с метаинформации: дат, тегов, хабов, просмотров и «лайков». Оказалось, что и она может многое поведать.

[править] Доступ

Незарегистрированным посетителям доступны для просмотра большинство блогозаписей и их комментариев, за исключением блогозаписей, размещенных в т. н. закрытых блогах. Для возможности вносить любые изменения или дополнения, будь то комментарии или блогозаписи, а также для возможности подписаться на закрытые блоги, требуется регистрация.

Начиная с середины 2008 года регистрация в проекте осуществляется только по инвайтам. Осенью 2011 года была открыта регистрация, однако новые пользователи могут писать только в песочницу, пока не получат инвайт от какого-либо пользователя (вероятно это было сделано для наращивания числа пользователей вместе с сохранением имеющейся культуры общения).

Есть четыре способа получить инвайт:

  1. «Заработать честным трудом»: Написать хороший пост в «песочнице» и по результатам голосования сообщества Хабра получить авто-инвайт (от «НЛО»), который пришлётся на указанную при написании поста почту или
  2. «Везение»: На страницах Хабрахабра в соцсетях иногда проходят различные квесты с призами в виде инвайтов Или
  3. Быть сотрудником компании: Если пользователь — сотрудник компании, которая имеет блог на Хабре, то она может выдать определённое количество инвайтов, в зависимости от тарифного плана. Или
  4. «Заработать просто так»: Иметь друга, участвующего на Хабре и имеющего достаточную карму для выдачи инвайтов.

В прошлом был доступен способ «Получить в лотерее»: нужно было загрузить IE8 и поучаствовать в лотерее, где можно выиграть инвайт. Однако, процесс его получения мог занять длительное время. В настоящее время этот способ был отключен.

Пользователи, уже имеющие полноценный аккаунт, могут получить инвайт двумя способами:

  • Иметь карму 50 или больше и получить 1 инвайт единовременно.
  • Написать публикацию, которая наберёт рейтинг +50 или больше (1 инвайт за каждую такую публикацию).

Инвайт представляет собой картинку, выполненную в супрематическом стиле — квадрат, состоящий из четырёх равных квадратов разных цветов. Получив картинку такого рода на почту следует отправиться на habrahabr.ru/register/ (предварительно скачав полученную картинку на компьютер), вбить в раздел Код доступа адрес скачанной картинки на компьютере, ввести шестизначную капчу и нажать кнопку «Поехали!».

После регистрации участнику присваивается личная страница, располагающаяся по адресу habrahabr.ru/users/username (ранее — на отдельном поддомене вида username.habrahabr.ru, с которых сейчас происходит редирект). С 14 ноября изменилась система авторизации. Теперь она проходит с использованием единого сайта авторизации TM ID. Все старые аккаунты были перенесены, но вместо логина используется электронная почта.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector