24 Jul

почему рекомендации Youtube такие странные

Хорошая рекомендация видео на Youtube – это, скорее, исключение, чем правило. Часто люди искренне недоумевают, глядя на то, что им предлагается посмотреть. Явно бросающиеся в глаза недочеты пользователи многократно обсуждали на Reddit и других ресурсах – например, 1, 2, 3, а на тему содержимого секции Trending video на Youtube существует множество издевательских мемов. Раздражение от навязчиво появляющихся видео, которые пользователям не интересны, вылилось в улучшения, анонсированные Google 26 июня 2019, но в целом доверие алгоритмам удивляет. 

Проблемы рекомендаций

Пользователи Youtube жалуются на следующие вещи:

  • постоянный повтор уже просмотренного, генерация плейлистов из того, что уже многократно рекомендовалось, т.е. вечный “день сурка”;
  • cлабое влияние подписок;
  • показ популярных, но неинтересных пользователю видео;
  • показ национального топа по факту используемого языка, даже если выбрана другая локация;
  • обратная связь в духе “Больше не показывать” или “Мне неинтересно” почти не оказывает влияния на рекомендации;
  • периодически появляющийся “желтый” контент;
  • необходимость чистить историю, чтобы видео про падающего гопника от коллеги не спровоцировало мусорные рекомендации.

В основе всех этих жалоб лежит уверенность, что алгоритмы рекомендаций должны открывать пользователю что-то интересное и быть на его стороне. К сожалению, это ошибка.

В задачу систем рекомендации не входит постоянное удовольствие пользователя, ее основная цель – продлить сессию и количество просмотренных видео любой ценой, а также выработать привычку использовать сервис. Учитывая, что многие заходят на Youtube, чтобы занять время, подходят любые объекты, привлекающие внимание – неважно, негативное или позитивное. То есть пользователь, недовольно перебирающий “плохие” рекомендации и просматривающий рекламу, Youtube подходит отлично. 

“Сама идея использовать искусственный интеллект на Youtube, чтобы рекомендовать подходящие вам видео, не так уж плоха, ведь если настроить AI, вы можете получить, что хотите. Это было бы здорово. Но проблема в том, что AI настроен не для того, чтобы помогать вам найти то, что вы хотите, – его задача подсадить вас на Youtube. Рекомендации были созданы, чтобы вы просаживали свое время” (отсюда)

Read More

15 Dec

онлайн-курсы: data science, Kali linux и проч

Давно не писала про онлайн-курсы, а ведь в этом году я снова поучилась немного.
 
С крупными системами онлайн-обучения вроде Coursera успели произойти большие изменения. Полученные на них знания избавились от статуса маргинального “обучения в интернете”,  IT-мир так и вообще привык к тому, что человек учится сам удаленно. А значит порталы стали более формальными и за курсы стало необходимо платить гораздо чаще, чем прежде. Также везде появились “специализации”, т.е. линейки курсов, необходимые, чтобы человек мог считаться специалистом в какой-то области.  Порталам удобно навязывать специализации,  т.к. за них больше платят, поэтому навигация на Coursera стала неудобной, и я перешла на другие платформы, где постепенно появляется та же проблема.  При этом я охотно плачу за курс, если цена небольшая и курс меня штырит, у меня верифицированный статус. Но сейчас я больше всего люблю Edx за интерфейс и немного Udemy за их полную безбашенность. Там никогда не знаешь, на что наткнешься.
 
Вот краткий обзор курсов, жирным выделила очень удачные.
 
Data Science на языке R от HarvardX на Edx  – это линейка из семи курсов, из которых я прошла пока 3.5. Все они были информативными, но мне больше нравятся те, где есть интеграция с практической платформой DataCamp. Вот она меня покорила по полной схеме, потому что выполнять там задания очень удобно + там целая сеть своих курсов и свое комьюнити дата саентистов всех мастей.

Read More

05 Oct

machine learning: что это, где используется и как можно этим овладеть

Написала для T&P статью о том, что такое машинное обучение, где используется и как им овладеть – https://theoryandpractice.ru/posts/16970-obuchenie-mashin-chto-takoe-machine-learning-i-kak-im-ovladet . Меня как спеца больше всего интересовала область коммерческого применения, потому что для обычных людей machine learning – это экзотика, а оно уже везде – и будет вскоре заменять некоторые сектора сотрудников (Дойче банк, например, уже уволил несколько тысяч). Забавно, что эта тема появилась как раз тогда, когда я сама погрузилась в тему data science, приятная синхрония.

Статья получилась крупная, поэтому пришлось вырезать некоторые примеры использования в русских бизнесах типа ЦРТ и трейдеров, но в целом вышло неплохо – куда пойти, где учиться не за бешеные деньги и где использовать. Кстати, набирают ML-спецов очень лихо – хочешь в Яндекс, хочешь в Газпром, хочешь в NASA или Netflix, а зарплаты удовлетворят любого.

Меня еще приколола работа стэнфордских ученых, где они обучали нейросети описывать фотки. Вот пример:

В статью много еще интересного не влезло про игровую индустрию, но об этом, может, потом напишу когда-нибудь. Тема меня дико заводит пока, и это хорошо, а то у меня было явное it-выгорание.

16 Sep

DataCamp

Ребята, у меня новый фаворит в платформах для онлайн-обучения, меня дико прет.  Невероятно удобно, интересно, все продумано. Это Datacamp. Он полностью заточен на Data Science, так что там R, Python, статистика и разнообразное применение этих вещей в разных сочетаниях для анализа данных, предсказаний, машинного обучения, проч. Так вот – офигенно! Не могу оторваться прямо.

Я наткнулась на платформу, когда проходила гарвардские курсы по R на edx. Там лекции были отдельно, а вся практика – и очень интересная – была вынесена на DataCamp. Там можно делать все сразу – смотреть постановку задачи, читать хелп, внизу в консоли экспериментировать с данными. Но потом оказалось, что на DataCamp полно своих курсов, причем они специализированные. Например, применение R для маркетингового анализа выборов пользователя или оценка кредитных рисков с R и прочее и прочее в том же духе (та же тема для Питона). Иными словами, разные спецы показывают конкретный срез применения языка для каких-то локальных задач. Хочешь машинное обучение? Ок. Хочешь анализ трейдинговой инфы? Ок. Я прошла пару курсов, они хорошо выстроены и, хотя водят за ручку, дают представление о конкретной зоне работ.

Но самое прикольное, у них еще есть так называемые “проекты”. Там можно поанализировать данные с Kaggle, можно поиграть с частотой слов в “Моби Дике”, можно ggplot’ом рисовать подсолнухи, можно на примере изучить A/B тестирование для мобильных игр, про которое все срут в уши, и прочее в том же духе. У меня на это есть только одно слово – охуенно.

20 Jul

R, Gapminder и Габон

Я прохожу серию курсов HarvardX по R, и в Data Science: Visualization в качестве примеров для построения графиков, сравнений и прочего использовались данные организации Gapminder. Они упарываются по статистике как по средству борьбы со стереотипами – и у них много данных по доходам, фертильности и проч. стран “развивающихся” и “развитых”. Они утверждают, что это разделение давно неактуально. На курсе действительно интересно показывается работа с этой статистикой, но меня заинтересовало другое.

Вот график доходов на душу населения по регионам (график увеличивается):

Чтобы было понятно: это сравнение доходов стран по регионам, указанным внизу, за два года – красным показываются доходы за 1970, голубым – за 2010.  Доход показывается с помощью прямоугольника-боксплота. Если говорить просто, внутри него отображается медиана,  верх  – максимальное значение, низ – минимальное, а точки – это отклоняющиеся от общей массы максимумы и минимумы.  Такой взгляд значительно лучше описывает ситуацию, чем безликие “средние” значения.

График и так интересный, но меня дико заинтересовало, что это за богатая страна в Центральной Африке,  имеющая европейские доходы при полной нищете соседей.  Посмотрела в данных  – оказывается, это Габон.  Вот вы что-нибудь знаете про Габон? Наверняка нет.  А там войска комплектуются на добровольной основе, полно бабла от нефти и большая часть людей исповедует христианство.  Удивительное дело!  Это такой же разрыв шаблона, как когда португальский таксист рассказывал мне, что все таксисты из Португалии едут зарабатывать в Анголу.

Если вас заинтересовал пик для Западной Африки, который уделал даже Габон, то это были туристические Сейшелы,  а в Северной Европе всех подвела Латвия.

18 Jun

подкаст с удаленным участником

Для того, чтобы начать записывать свой подкаст, нужны три вещи: микрофон, Audacity и контент.  Все.

Но если записываешь беседу с кем-то из другого города,  это уже не сработает. Удаленного гостя можно записывать через Skype (iFreeSkypeRecorder и т.д), если оба участника в наушниках, у обоих неплохие мики + оба участника минимизируют свои шумы, но результат получается так себе.

Нашла два веб-сервиса, которые позволяют сделать, чтобы обе дорожки звучали равноценно, – Cast и Zencastr. Cast позволяет записывать сразу обе дорожки, затем отрегулировать их громкость и сделать сведение там же. Удивительно, но сводит он достойно. За счет того, что каждая дорожка пишется “локально” у участника, итоговый результат звучит прилично. Zencastr действует по той же схеме, но заодно записывает обе дорожки отдельно – и их можно скачать как отдельные файлы, чтобы свести самому (потому что автомикс у них адский).  Так что если будете записывать беседу, интервью или что-то подобное на скорую руку, имейте в виду. 

24 Nov

нетбуки 4Goods и невозможность отключить свайпы

Пару недель назад купила дешевую печатную машинку, чтобы мобильно писать в любом месте. Выбрала дешевый и предельно легкий бук от русской конторы китайской сборки.  Соблюдались все три критерия: 1) малый вес, 2) предельно емкая батарея, 3) низкая цена, т.к. производительность для таких задач не требуется.  Казалось бы, что может пойти не так?

Проблема оказалась в бюджетном подходе к управлению тачпадом.  Устройство заточено только под Win 10, где используются свайпы.  Так вот у “клаудбуков” 4Goods нельзя ни настроить, ни отключить свайпы на тачпаде, потому что они вшиты в драйвер, – ни реестром, ни политиками, ни настройками.  А edge swipe у него зачетный – стоит только задеть край тачпада при серфинге или печати, как все окна сворачиваются, из-за чего нужно либо использовать тачпад, словно вдумчивый паралитик, либо отказаться от серфинга и печати текстов, т.к. при печати edge swipe вставляет табуляции в начало строки (текст превращается в mash-up).  Оказывается, неотключаемого edge swipe достаточно, чтобы сделать работу совершенно невыносимой.  Нативная навигация и быстрая работа сразу превращается в эпилептическое дерганье окон. В итоге вместо радости покупка принесла только боль, сеть полна такими же бедолагами.

В техподдержке прямым текстом признались, что отключить свайпы нельзя, и посоветовали отключить тачпад совсем. Но это я и сама поняла – ребята пошли по самому идиотскому пути, вшив свайпы в драйвер намертво.  Зачем нужно устройство, на котором ты отключаешь самую используемую периферию? Пришлось вернуть. Так что если вы не планируете переписывать дрова, не берите. Сходная проблема есть и у других нетбуков на Win10,  особенно бюджетных, так что проверяйте перед покупкой.

 

29 Jun

Facebook как воплощение ада

Самое ценное, что дает Сеть, – это информация, свобода выбора собеседников и (условная) анонимность. Cтремление людей заполнять данные о себе в соцсетях и постоянно находиться на связи мне не нравится.  Но это отношение к поведению людей, а не к соцсетям в целом, ведь сети – это инструменты. Однако есть две соцсети,  к которым у меня стойкое отвращение,  – это Instagram и Facebook.

Read More

10 Feb

VPN / IPVanish

Периодически просят посоветовать VPN для обхода блокировок, но т.к. нет времени редактировать старую статью, учитывая произошедшие изменения,  сформулирую проще.

Для просмотра простых сайтов идеально подойдет VPN в Opera. Они спрятали режим турбо, поэтому чтобы его использовать, его сначала нужно включить в Меню -> Настройки -> Безопасность:

А затем, когда вам нужно, вы включаете для сайта подключение из другой страны, щелкая на значок VPN в адресной строке браузера:

Но для полноценной работы приложений и видео я рекомендую платный VPN, потому что это уже наболело плюс дает определенную защиту трафика, т.е. адреса сайтов, которые вы посещали, не уходят через сотового или стационарного оператора к гражданину майору. В идеале нужно выбрать удачный быстрый VPN в районе 10 баксов в месяц – и поставить его в автозапуск.  Можно ли использовать бесплатные VPN? Можно, но я решила, что с меня хватит – это вечный геморрой, потому что у них стоит ограничение трафика и ограничение скорости, особенно вы не разбежитесь, только будете негодовать. Я не люблю тормоза, а 10 баксов мне не жалко.  В последнее время перешла с притормаживающего, но анонимного BTGuard на IPVanish – https://www.ipvanish.com/  .

IPVanish высокоскоростной, имеет сервера в почти 50 странах на выбор,  дает возможность одновременного использования на 5 устройствах,  т.е. можно спокойно покрыть всю домашнюю сеть и смартфоны с помощью одной подписки.  Можно даже на роутер поставить (есть утилиты). Как и многие, они обещают не хранить никаких логов посещений, но это непроверяемо. Окончательно меня подкупили два факта:

  • у них есть мобильные приложения для всех операционок, включая Windows Phone, на который все положили болт. Это доказывает системный подход и дотошность.
  • они отказались от размещения серверов в России после закона о том, что они должны хранить логи о том, что посещает пользователь, и предоставлять эти данные по запросу. Это демонстрирует принципы.

Пользуюсь уже месяца 3, пока довольна, хотя с рядом серверов бывают проблемы. О блокировках чего-либо можно полностью забыть.  Также IPVanish позиционирует себя как VPN для анонимной загрузки торрентов с полным безлимитом, но у меня пока не было возможности проверить. Думаю, задержки будут, но несравнимые с бесплатными вариантами, где вспоминаешь об эпохе модема.