05 Oct

machine learning: что это, где используется и как можно этим овладеть

Написала для T&P статью о том, что такое машинное обучение, где используется и как им овладеть – https://theoryandpractice.ru/posts/16970-obuchenie-mashin-chto-takoe-machine-learning-i-kak-im-ovladet . Меня как спеца больше всего интересовала область коммерческого применения, потому что для обычных людей machine learning – это экзотика, а оно уже везде – и будет вскоре заменять некоторые сектора сотрудников (Дойче банк, например, уже уволил несколько тысяч). Забавно, что эта тема появилась как раз тогда, когда я сама погрузилась в тему data science, приятная синхрония.

Статья получилась крупная, поэтому пришлось вырезать некоторые примеры использования в русских бизнесах типа ЦРТ и трейдеров, но в целом вышло неплохо – куда пойти, где учиться не за бешеные деньги и где использовать. Кстати, набирают ML-спецов очень лихо – хочешь в Яндекс, хочешь в Газпром, хочешь в NASA или Netflix, а зарплаты удовлетворят любого.

Меня еще приколола работа стэнфордских ученых, где они обучали нейросети описывать фотки. Вот пример:

В статью много еще интересного не влезло про игровую индустрию, но об этом, может, потом напишу когда-нибудь. Тема меня дико заводит пока, и это хорошо, а то у меня было явное it-выгорание.

16 Sep

DataCamp

Ребята, у меня новый фаворит в платформах для онлайн-обучения, меня дико прет.  Невероятно удобно, интересно, все продумано. Это Datacamp. Он полностью заточен на Data Science, так что там R, Python, статистика и разнообразное применение этих вещей в разных сочетаниях для анализа данных, предсказаний, машинного обучения, проч. Так вот – офигенно! Не могу оторваться прямо.

Я наткнулась на платформу, когда проходила гарвардские курсы по R на edx. Там лекции были отдельно, а вся практика – и очень интересная – была вынесена на DataCamp. Там можно делать все сразу – смотреть постановку задачи, читать хелп, внизу в консоли экспериментировать с данными. Но потом оказалось, что на DataCamp полно своих курсов, причем они специализированные. Например, применение R для маркетингового анализа выборов пользователя или оценка кредитных рисков с R и прочее и прочее в том же духе (та же тема для Питона). Иными словами, разные спецы показывают конкретный срез применения языка для каких-то локальных задач. Хочешь машинное обучение? Ок. Хочешь анализ трейдинговой инфы? Ок. Я прошла пару курсов, они хорошо выстроены и, хотя водят за ручку, дают представление о конкретной зоне работ.

Но самое прикольное, у них еще есть так называемые “проекты”. Там можно поанализировать данные с Kaggle, можно поиграть с частотой слов в “Моби Дике”, можно ggplot’ом рисовать подсолнухи, можно на примере изучить A/B тестирование для мобильных игр, про которое все срут в уши, и прочее в том же духе. У меня на это есть только одно слово – охуенно.

20 Jul

R, Gapminder и Габон

Я прохожу серию курсов HarvardX по R, и в Data Science: Visualization в качестве примеров для построения графиков, сравнений и прочего использовались данные организации Gapminder. Они упарываются по статистике как по средству борьбы со стереотипами – и у них много данных по доходам, фертильности и проч. стран “развивающихся” и “развитых”. Они утверждают, что это разделение давно неактуально. На курсе действительно интересно показывается работа с этой статистикой, но меня заинтересовало другое.

Вот график доходов на душу населения по регионам (график увеличивается):

Чтобы было понятно: это сравнение доходов стран по регионам, указанным внизу, за два года – красным показываются доходы за 1970, голубым – за 2010.  Доход показывается с помощью прямоугольника-боксплота. Если говорить просто, внутри него отображается медиана,  верх  – максимальное значение, низ – минимальное, а точки – это отклоняющиеся от общей массы максимумы и минимумы.  Такой взгляд значительно лучше описывает ситуацию, чем безликие “средние” значения.

График и так интересный, но меня дико заинтересовало, что это за богатая страна в Центральной Африке,  имеющая европейские доходы при полной нищете соседей.  Посмотрела в данных  – оказывается, это Габон.  Вот вы что-нибудь знаете про Габон? Наверняка нет.  А там войска комплектуются на добровольной основе, полно бабла от нефти и большая часть людей исповедует христианство.  Удивительное дело!  Это такой же разрыв шаблона, как когда португальский таксист рассказывал мне, что все таксисты из Португалии едут зарабатывать в Анголу.

Если вас заинтересовал пик для Западной Африки, который уделал даже Габон, то это были туристические Сейшелы,  а в Северной Европе всех подвела Латвия.

18 Jun

подкаст с удаленным участником

Для того, чтобы начать записывать свой подкаст, нужны три вещи: микрофон, Audacity и контент.  Все.

Но если записываешь беседу с кем-то из другого города,  это уже не сработает. Удаленного гостя можно записывать через Skype (iFreeSkypeRecorder и т.д), если оба участника в наушниках, у обоих неплохие мики + оба участника минимизируют свои шумы, но результат получается так себе.

Нашла два веб-сервиса, которые позволяют сделать, чтобы обе дорожки звучали равноценно, – Cast и Zencastr. Cast позволяет записывать сразу обе дорожки, затем отрегулировать их громкость и сделать сведение там же. Удивительно, но сводит он достойно. За счет того, что каждая дорожка пишется “локально” у участника, итоговый результат звучит прилично. Zencastr действует по той же схеме, но заодно записывает обе дорожки отдельно – и их можно скачать как отдельные файлы, чтобы свести самому (потому что автомикс у них адский).  Так что если будете записывать беседу, интервью или что-то подобное на скорую руку, имейте в виду. 

24 Nov

нетбуки 4Goods и невозможность отключить свайпы

Пару недель назад купила дешевую печатную машинку, чтобы мобильно писать в любом месте. Выбрала дешевый и предельно легкий бук от русской конторы китайской сборки.  Соблюдались все три критерия: 1) малый вес, 2) предельно емкая батарея, 3) низкая цена, т.к. производительность для таких задач не требуется.  Казалось бы, что может пойти не так?

Проблема оказалась в бюджетном подходе к управлению тачпадом.  Устройство заточено только под Win 10, где используются свайпы.  Так вот у “клаудбуков” 4Goods нельзя ни настроить, ни отключить свайпы на тачпаде, потому что они вшиты в драйвер, – ни реестром, ни политиками, ни настройками.  А edge swipe у него зачетный – стоит только задеть край тачпада при серфинге или печати, как все окна сворачиваются, из-за чего нужно либо использовать тачпад, словно вдумчивый паралитик, либо отказаться от серфинга и печати текстов, т.к. при печати edge swipe вставляет табуляции в начало строки (текст превращается в mash-up).  Оказывается, неотключаемого edge swipe достаточно, чтобы сделать работу совершенно невыносимой.  Нативная навигация и быстрая работа сразу превращается в эпилептическое дерганье окон. В итоге вместо радости покупка принесла только боль, сеть полна такими же бедолагами.

В техподдержке прямым текстом признались, что отключить свайпы нельзя, и посоветовали отключить тачпад совсем. Но это я и сама поняла – ребята пошли по самому идиотскому пути, вшив свайпы в драйвер намертво.  Зачем нужно устройство, на котором ты отключаешь самую используемую периферию? Пришлось вернуть. Так что если вы не планируете переписывать дрова, не берите. Сходная проблема есть и у других нетбуков на Win10,  особенно бюджетных, так что проверяйте перед покупкой.

 

29 Jun

Facebook как воплощение ада

Самое ценное, что дает Сеть, – это информация, свобода выбора собеседников и (условная) анонимность. Cтремление людей заполнять данные о себе в соцсетях и постоянно находиться на связи мне не нравится.  Но это отношение к поведению людей, а не к соцсетям в целом, ведь сети – это инструменты. Однако есть две соцсети,  к которым у меня стойкое отвращение,  – это Instagram и Facebook.

Read More

10 Feb

VPN / IPVanish

Периодически просят посоветовать VPN для обхода блокировок, но т.к. нет времени редактировать старую статью, учитывая произошедшие изменения,  сформулирую проще.

Для просмотра простых сайтов идеально подойдет VPN в Opera. Они спрятали режим турбо, поэтому чтобы его использовать, его сначала нужно включить в Меню -> Настройки -> Безопасность:

А затем, когда вам нужно, вы включаете для сайта подключение из другой страны, щелкая на значок VPN в адресной строке браузера:

Но для полноценной работы приложений и видео я рекомендую платный VPN, потому что это уже наболело плюс дает определенную защиту трафика, т.е. адреса сайтов, которые вы посещали, не уходят через сотового или стационарного оператора к гражданину майору. В идеале нужно выбрать удачный быстрый VPN в районе 10 баксов в месяц – и поставить его в автозапуск.  Можно ли использовать бесплатные VPN? Можно, но я решила, что с меня хватит – это вечный геморрой, потому что у них стоит ограничение трафика и ограничение скорости, особенно вы не разбежитесь, только будете негодовать. Я не люблю тормоза, а 10 баксов мне не жалко.  В последнее время перешла с притормаживающего, но анонимного BTGuard на IPVanish – https://www.ipvanish.com/  .

IPVanish высокоскоростной, имеет сервера в почти 50 странах на выбор,  дает возможность одновременного использования на 5 устройствах,  т.е. можно спокойно покрыть всю домашнюю сеть и смартфоны с помощью одной подписки.  Можно даже на роутер поставить (есть утилиты). Как и многие, они обещают не хранить никаких логов посещений, но это непроверяемо. Окончательно меня подкупили два факта:

  • у них есть мобильные приложения для всех операционок, включая Windows Phone, на который все положили болт. Это доказывает системный подход и дотошность.
  • они отказались от размещения серверов в России после закона о том, что они должны хранить логи о том, что посещает пользователь, и предоставлять эти данные по запросу. Это демонстрирует принципы.

Пользуюсь уже месяца 3, пока довольна, хотя с рядом серверов бывают проблемы. О блокировках чего-либо можно полностью забыть.  Также IPVanish позиционирует себя как VPN для анонимной загрузки торрентов с полным безлимитом, но у меня пока не было возможности проверить. Думаю, задержки будут, но несравнимые с бесплатными вариантами, где вспоминаешь об эпохе модема.

01 Oct

Девочки

В русских госконторах все женщины делятся на две крупные категории – либо “девочки”, либо “дамы”. Если женщина выглядит достаточно молодо, то это всегда “девочка” (“давайте у девочек спросим”). “Девочка” – это некто, что работает, но подразумевается, что “девочек” на рубль пачка, что они только и знают, что чай пить, и что любой мужчина, выполняющий ту же самую работу, гораздо важнее. Т.е. мужчина – это профессионал, симпатичная женщина на той же должности – это “девочка” на пороге декрета. Read More

07 Nov

coursera: crypto и big data

Закончила первый курс на coursera.org, Cryptography I. Начинала в прошлом году, но следующие друг за другом рабочие командировки не дали закончить, поэтому прошла еще раз, но до конца. Курс ведет Dan Boneh из Стэнфорда, и он не церемонится – отлично зная материал и будучи увлеченным темой, он много времени уделяет математическим доказательствам и разнообразным примерам уязвимостей. Хотя он отлично объясняет, людям, далеким от математики, будет непросто. Это не обзорный курс, это принципы работы основных шифров – потоковые, блочные, аутентификация, контроль целостности, открытый ключ, RSA. Причем лектор рассматривает разные криптографические конструкции и протоколы с точки зрения атакующего, что значительно повышает ценность рассказа.

Курс состоит из видео-лекций, тестов на понимание (но при этом часть вопросов требует небольших расчетов – вроде времени, требующегося на брутфорс, пр) и дополнительных заданий для программистов. Задания – это взломы различных шифров или конструкций (oracle padding attack, хэш). Для меня это было kinda challenging, особенно учитывая, что для программирования пришлось воспользоваться зачаточными знаниями Питона. Задания на программирование потребовали помощи товарища и форума, однако программистские задачи – это жемчужина курса вне всяких сомнений. В дополнение к этому лектор дает ссылки на различные статьи экспертов по слабым местам тех или иных протоколов и шифров для самостоятельного изучения. Итог – необходимость интенсивно поработать.

Выводы:
– почувствовать себя студентом Стэнфорда было интересно, качество обучения в курсе объективно выше, чем в моем родном вузе;
– форумы на coursera.org действительно являются полезным источником информации. люди помогают друг другу, стараются объяснить непонятные места. в сравнении с рунетом это очень освежает;
– как и говорил Брюс Шнайер, криптография – это не для простачков. в принципе, для свободного понимания курса нужно как минимум знать модульную арифметику, часть теории информации и освежить теорию вероятностей.

“За время проведения конференции в «Американском черном кабинете» было прочтено и переведено более 5 тысяч шифрсообщений. Вследствие перенапряжения несколько его сотрудников заболели на нервной почве: один начал что-то бессвязно бормотать, другой стал посвящать все свое свободное время ловле бродячей собаки, у которой на боку якобы был записан японский дипломатический код, а третий, терзаемый каким-то неизъяснимым кошмаром, постоянно носил при себе огромную сумку с камнями, собранными на морском берегу. Все трое были вынуждены уйти с работы. Сам Ярдли также оказался на грани нервного расстройства и в феврале 1922 г. получил четырехмесячный отпуск для поправки своего здоровья.” (“Взломщики кодов” Кан) Read More