Spark in me - Internet, data science, math, deep learning, philo

snakers4 @ telegram, 1356 members, 1614 posts since 2016

All this - lost like tears in rain.

Data science, deep learning, sometimes a bit of philosophy and math. No bs.

Our website
- spark-in.me
Our chat
- goo.gl/WRm93d
DS courses review
- goo.gl/5VGU5A
- goo.gl/YzVUKf

Posts by tag «neural_nets»:

snakers4 (Alexander), October 23, 03:29

Давно не делал подборки с канала. Сделаю несколько штук)

Интересные ссылки на тему DS / ML

68 Cheat sheet-ы Data wrangling - //snakers41.spark-in.me/1219

69 Bokeh - замена D3.js но на питоне - //snakers41.spark-in.me/1220

70 Новый курс от fast.ai - прикладная линейная алгебра - //snakers41.spark-in.me/1224

71 Быстрый анализ потокового видео - //snakers41.spark-in.me/1227

72 Sklearn cheat-sheet - //snakers41.spark-in.me/1229

73 Советы от призеров на Kaggle //snakers41.spark-in.me/1231

74 Интуиция при использовании t-SNE - //snakers41.spark-in.me/1239

75 Бенчмарки либ для градиентного бустинга - //snakers41.spark-in.me/1250

76 ROC и AUC простыми словами - //snakers41.spark-in.me/1262

77 Еще прогресс бары на питоне - //snakers41.spark-in.me/1269

78 Fast.ai открыли вторую серию курса про глубокое обучение - //snakers41.spark-in.me/1270

79 Чит шиты - архитектуры нейросетей - //snakers41.spark-in.me/1273

80 РАБОТАЮЩИЙ пример multi-curl - //snakers41.spark-in.me/1274

81 Многопоточность в питоне - //snakers41.spark-in.me/1276

82 Как эффективно загружать .npy массивы в память в питоне - //snakers41.spark-in.me/1279

83 Туториалы по Keras + tf с примерами в ipynb - //snakers41.spark-in.me/1278

84 Новый курс от Andrew Ng - //snakers41.spark-in.me/1293

85 Разложения матриц fast.ai - //snakers41.spark-in.me/1294

86 Дельные статьи с Хабра - //snakers41.spark-in.me/1303

87 Музыкальные рекоммендации - //snakers41.spark-in.me/1305

88 Визуализация в виде карты - //snakers41.spark-in.me/1306

89 Классная презентация про ML в гугле - //snakers41.spark-in.me/1309

90 Многопоточная работа с файлами в питоне в Keras - //snakers41.spark-in.me/1313

91 Мобильные архитектуры нейросетей //snakers41.spark-in.me/1316

#digest

#data_science

Spark in me

Пара сверх-полезных cheat-sheet-ов для "ковыряния" в данных на pandas - Часть раз https://goo.gl/NYkqWb - Часть два https://goo.gl/EXjGXu Полезно будет тем, кто только начинает такие "ковыряния". На мой взгляд тут сильно не хватает сводных таблиц. Про них можно прочитать тут: - In a nutshell - https://goo.gl/K1xucE - Ссылка http://pbpython.com/pandas-pivot-table-explained.html #data_science #cheat_sheet


Подборка - статьи и заметки автора

30 Переход на HTTPS - //snakers41.spark-in.me/1109

31 The art of learning - //snakers41.spark-in.me/1099

32 Как пользоваться каналом - //snakers41.spark-in.me/1084

33 Про деплой и поддержку сервера - //snakers41.spark-in.me/1074

34 Про бекапы - //snakers41.spark-in.me/1069

35 Про бекенд нашего сайта - //snakers41.spark-in.me/1046

36 Как пользоваться каналом - //snakers41.spark-in.me/1084

37 Заметка про Гугл, Андроид, Эппл и машинное обучение - //snakers41.spark-in.me/1085

39 Книга про самообразование - //snakers41.spark-in.me/1099

40 Заметка про семантическое ядро - //snakers41.spark-in.me/1102

41 Заметка про RTB - //snakers41.spark-in.me/1110

42 Анализ рынка через сайтмапы - //snakers41.spark-in.me/1127

43 SMTP шлюзы - spark-in.me/post/smtp-relay-outsiders-view-1

44 Сайтмапы - часть 3 //snakers41.spark-in.me/1171

45 Сайтмапы - часть 2 //snakers41.spark-in.me/1153

46 Анализ 1.5м фоток квартир - начало - //snakers41.spark-in.me/1180

47 Визуализации нейросетей - фейл - //snakers41.spark-in.me/1196

48 Визуализация звука в питоне - //snakers41.spark-in.me/1197

50 Про глупость и способы ее исправить - //snakers41.spark-in.me/1263

51 Установка софта для работы с GPU и нейросетями - //snakers41.spark-in.me/1287

52 Работа с U-NET на практике - //snakers41.spark-in.me/1307

53 Как тренировать сверточные нейросети в 10 раз быстрее - //snakers41.spark-in.me/1319

54 Про трудовую миграцию - //snakers41.spark-in.me/1328

#digest

#data_science

Spark in me

Итак, закончилась небольшая эпопея по переводу сайта на HTTPS. Надеюсь кому-то покажется интересным. Описал основные блоки, которые по идее должны быть применимы для любого веб-проекта. Что самое главное - все старые ссылки и все-все-все должно работать) TLDR - ставьте https сразу и не мучайтесь) - https://spark-in.me/post/spark-in-me-https #internet


Подборка - статьи про pytorch

Гайд раз - //snakers41.spark-in.me/1362

Fast.ai и pytorch - //snakers41.spark-in.me/1367

Цикл статей про SSD на pytorch - //snakers41.spark-in.me/1435

Pytorch и докер -//snakers41.spark-in.me/1438

Впечатления про pytorch - //snakers41.spark-in.me/1442

Расширение классов Pytorch - //snakers41.spark-in.me/1447

Аугментации на pytorch - //snakers41.spark-in.me/1449

Pytorch - снижение lr по шагам - //snakers41.spark-in.me/1457

Внутрянка tf и pytorch - //snakers41.spark-in.me/1467

#digest

#deep_learning

#pytorch

Spark in me

Знакомый поделился классным гайдом по PyTorch, который объясняет в чем его фишка. Если вы не пользуетесь Keras и ищете на чем потренироваться - то вам как раз подойдет. https://habrahabr.ru/post/334380/ #data_science #neural_nets


Подборка - Докер

Как начать в докер - //snakers41.spark-in.me/1365

Как начать в докер - уже серьезнее - //snakers41.spark-in.me/1403

Бойлерплейты на докере для DS - //snakers41.spark-in.me/1409

Pytorch и докер -//snakers41.spark-in.me/1438

Докер и проброс ssh - //snakers41.spark-in.me/1439

Как поднять себе окружение в докере с уровня железа

//snakers41.spark-in.me/1461

#digest

#linux

Spark in me

Если вы хотите начать превращать свой локальный или удаленный зоопарк в более структурированный зоопарк, или избавиться от конфликтов софта и необходимости все иметь всегда в последней версии, то вот несколько хороших вводных точек про докер - Раз https://habrahabr.ru/post/337306/ - Два https://docs.docker.com/get-started/ #linux


snakers4 (Alexander), October 14, 05:14

Пара интересных заметок от человека, который участвовал в конкурсе про рыб в прошлом году:

- Сравнение его моделей для классификации фоток рыб

-- goo.gl/azDP6A

- Пара слов про finetuning (тут все банально)

-- goo.gl/BpCncB (тут нет PyTorch)

#data_science

#neural_nets

Detect and Classify Species of Fish from Fishing Vessels with Modern Object Detectors and Deep Convolutional Networks | Felix Yu

I recently took part in the Nature Conservancy Fisheries Monitoring Competition organized by Kaggle. Of all the image related competitions I took part before...


snakers4 (Alexander), October 10, 18:41

По ряду причин решил попробовать SSD (single shot image detection) именно на питорче и именно эту имплементацию (goo.gl/gj9cCX), а тут подоспел цикл статей, который поясняет все детали модели:

- Раз goo.gl/VeHv8g

- Два goo.gl/nTQddA

- Три goo.gl/ACQ4Ts

Как нельзя кстати.

Что такое dilated convolution

- www.erogol.com/dilated-convolution/

#data_science

#neural_nets

amdegroot/ssd.pytorch

ssd.pytorch - A PyTorch Implementation of Single Shot MultiBox Detector


snakers4 (Alexander), October 08, 08:41

Оказывается уже есть готовый squeeze-net для keras с весами =)

Неплохо

- github.com/wohlert/keras-squeezenet

#python

#neural_nets

wohlert/keras-squeezenet

keras-squeezenet - Pretrained Squeezenet 1.1 implementation in Keras


snakers4 (Alexander), October 05, 12:34

Несколько раз подряд запускал нейросети с разными ограничениями по ресурсам (CPU bound, GPU-bound, storage-bound).

Вывел для себя ряд простых эмпирических правил, которые подсказывают, что оптимизировать, чтобы на 100% использовать доступные ресурсы.

Также очень помогает консольная утилита

glances

Самые простые случаи:

1. HD / Full-HD картинки без ресайза. Практически независимо от архитектуры - будет GPU-bound. Если у вас нет стека из 2+ видео-карт, можно почти не париться по ускорению

2. Большое число маленьких картинок (миллионы, сотни тысяч) - при отсутствии оптимизации скорее всего сначала будет storage-bound, потом если грузить картинки параллельно - то GPU или CPU-bound

3. Очень тяжелая архитектура - GPU bound

Как детектировать:

1. При многопоточной загрузке картинок, загружено существенно менее ресурсов процессора чем воркеров (воркеров 8, а загрузка ЦП условно 1 из 8)

2. Загрузка постоянно GPU неполная и на низком уровне;

3. Низкая загрузка CPU и GPU

4. Бенчмарк для чтения с диска - 200 мбайт/c - плохо, 400 лучше, 1000 совсем хорошо

5. Чтение датасета из RAM - совсем хорошо

Примерно общая последовательность действий (архитектура модели - константа):

1. Если видеокарты не загружены до конца - увеличивать размер батча до максимально возможного

2. Если это не помогает (или батч уже максимальный), то нужно загружать в несколько потоков

3. Если это не помогает, то нужно проверить каждый этап своего генератора данных на скорость работы

4. Если это не помогает, нужно уже оптимизировать дисковое хранилище

5. Не стоит забывать, что данные как правило движутся (очень условно) диск => CPU => RAM => GPU и боттлнек на каждом этапе ниже делает быструю обработку на этапе выше невозможным

При прочих равных проще всего дозагружать ресурсы так

1 GPU - увеличивать батч-сайз

2 CPU - количество потоков загрузки данных (если нет ограничения по скорости чтения)

Способы оптимизация хранилища

1. Вставить SSD диск или NVME диск вместо HDD

2. Если нет времени / денег - RAID массив с / без SSD кешем

#data_science

#neural_nets

snakers4 (Alexander), September 28, 07:25

Закончился конкурс с вырезанием машин:

- www.kaggle.com/c/carvana-image-masking-challenge/leaderboard

Аффтар занял 66 место из 737 участников с решением без TTA / ансамблей и прочего. Что характерно, на публичном ЛБ было на 45 мест хуже. А разгадка простая - если вовремя соскочить с иглы и не оверфититься (ибо выиграть невозможно, т.к. ближе к конце начинается натуральный зерг в лице русских и китайцев), то решение получается простое и генерализуемое.

Фишкой, которая дала такой буст оказалось применение selu вместо relu в качестве функции активации.

Из полезного - архитектуры для семантической сегментации картинок можно и нужно пробовать применять с VGG-16 или Resnet на imagenet в качестве энкодера. Я запускал что-то такое на коленке, но довести до ума было лень - может и к лучшему =)

В keras не так сложно запускать модели на 2+ карточках, но там это делается криво - по идее мотивация пробовать pytorch.

Список перепробованных мной идей тут:

- goo.gl/m7p8sF

#data_science

#neural_nets

Carvana Image Masking Challenge

Automatically identify the boundaries of the car in an image


Каггл увеличивает число ресурсов для своих kernels

- goo.gl/1Rk2xf

- www.kaggle.com/product-feedback/39790

GPUs там нет, так что в принципе прикольно, но лично для меня бессмысленно.

#data_science

snakers4 (Alexander), September 25, 10:02

Хорошая компилляция про год в ML, чтобы быть в курсе того, что может быть сделано sota методами:

- habrahabr.ru/company/mailru/blog/338248/

Многое было в дайджестах.

#data_science

#neural_nets

Достижения в глубоком обучении за последний год

Привет, Хабр. В своей статье я расскажу вам, что интересного произошло в мире машинного обучения за последний год (в основном в Deep Learning). А произошло...


snakers4 (Alexander), September 22, 06:52

В общем решил поковырять непопулярный конкурс Nexar, чтобы узнать про архитектуру SSD (хотел еще на торче поиграться, но отказался от идеи пока).

Прочитал репозитории (эта хрень SSD оказалась дико замороченной) и решил попробовать скачать датасет из GTA / cityscapes / mapillary vistas (последние два требуют регистрации, лол), применить к ним юнет и потом сделать простые bbox-ы вокруг облаков высоких вероятностей. Лень двигатель прогресса, end-to-end модели рулят.

Будет интересно потом сравнить с SSD)

Пока датасеты качаются.

YOLO

v2 (тоже якобы sota для определения bbox-ов объектов на картинке)

- arxiv.org/pdf/1612.08242.pdf

- pjreddie.com/darknet/yolo/

- chatbotslife.com/small-u-net-for-vehicle-detection-9eec216f9fd6

- medium.com/@xslittlegrass/almost-real-time-vehicle-detection-using-yolo-da0f016b43de

- github.com/experiencor/basic-yolo-keras/blob/master/Basic%20Yolo%20Keras.ipynb

SSD

(якобы sota для определения bbox-ов объектов на картинке)

- arxiv.org/abs/1512.02325

- github.com/pierluigiferrari/ssd_keras/blob/master/keras_ssd300.py

- github.com/rykov8/ssd_keras

- github.com/amdegroot/ssd.pytorch

DATASETS

- Города мира с семантической разметкой - www.mapillary.com/dataset/vistas?lat=10.260958582987826&lng=-2.6390057525255486&z=1.495610634969737

- Города из GTA - download.visinf.tu-darmstadt.de/data/from_games/

- качается медленно но верно, все в паблике

- www.getnexar.com/challenge-2/upload/ - сам конкурс, понятно почему он непопулярен - 3 сабмита и даже на старте скачивание файлов сделано убого - ссылка с s3 не успевает скачаться и начинается веселье

- Города Европы с семантической разметкой - www.cityscapes-dataset.com - просят регистрацию и дают датасет только если ваша компания или универ им понравятся

#data_science

#neural_nets

snakers4 (Alexander), September 18, 07:26

Небольшой цикл статей про краткую историю глубокого обучения и основные понятия:

- Раз devblogs.nvidia.com/parallelforall/deep-learning-nutshell-core-concepts/

- Два - devblogs.nvidia.com/parallelforall/deep-learning-nutshell-history-training/

- Три - devblogs.nvidia.com/parallelforall/deep-learning-nutshell-sequence-learning/

Будет полезно, если вы ничего такого не читали.

#deep_learning

#neural_nets

Deep Learning in a Nutshell: Core Concepts

An intuitive and gentle introduction to deep learning. Covers the most important deep learning concepts, giving an understanding of each concept rather than mathematical and theoretical details.


snakers4 (Alexander), September 14, 07:12

Послушал / прочитал материалы к 8 (первый урок второй серии) уроку fast.ai.

Вот, что кажется интересным / полезным / применимым в ваккууме:

1.

Поиск научных статей

- Искать тут - www.arxiv-sanity.com

- Сохранять у себя на ПК и в облаке такой тулзой mendeley.com/

2.

Советы по сборке своего ПК для deep learning

- Раз goo.gl/3vdqUV

- Два - на рынке все больше консьюмерских NVME дисков

- Три - знакомый советует карточки серии ASUS x99e-WS

- Еще пара ссылок

spark-in.me/post/gpu-server-set-up-guide

— //snakers41.spark-in.me/1287

— //snakers41.spark-in.me/702

3.

Сравнение 2 и 3 питона

- goo.gl/rfK2SY

4.

Основные понятия и навыки в deep learning которыми надо владеть - goo.gl/Ak8Y68

Transfer learning - goo.gl/xWbAiN

Борьба с оверфиттингом - goo.gl/8E5fBx

5.

Преимущества pytorch

- goo.gl/5SxRfP

6.

Про art style transfer говорить много смысла нет (ибо - cv-blog.ru/?p=168), но наркоманскую картинку я сделал

- goo.gl/3o4HoA

#data_science

#neural_nets

#digest

#ne

Mendeley - Reference Management Software & Researcher Network

Mendeley is a free reference manager and an academic social network. Manage your research, showcase your work, connect and collaborate with over six million researchers worldwide.


Теперь вы также можете задонатить на развитие канала тут по номеру договора

- www.tinkoff.ru/cardtocard/

- 5011673505

Перевод денег с карты на карту

Мгновенные денежные переводы между любыми картами любых банков. Быстрый способ вернуть долг или пополнить баланс своей кредитной карты.


snakers4 (Alexander), September 11, 09:55

Знакомый прислал ссылку на библиотеку, которая содержит очень много стандартных аугментаций для изображений

- github.com/aleju/imgaug/blob/master/docs/index.rst

#data_science

#neural_nets

aleju/imgaug

imgaug - Image augmentation for machine learning experiments.


snakers4 (Alexander), September 06, 09:23

Знакомый поделился классным гайдом по PyTorch, который объясняет в чем его фишка. Если вы не пользуетесь Keras и ищете на чем потренироваться - то вам как раз подойдет.

habrahabr.ru/post/334380/

#data_science

#neural_nets

PyTorch — ваш новый фреймворк глубокого обучения

PyTorch — современная библиотека глубокого обучения, развивающаяся под крылом Facebook. Она не похожа на другие популярные библиотеки, такие как Caffe, Theano...


snakers4 (Alexander), September 04, 07:09

Скорее всего это следствие юзабилити, но в принципе наличие таких постов прикольно

- goo.gl/t8EYQF

- Ну и аналог Гугл-переводчика - www.deepl.com/translator

#internet

#neural_nets

Tim Dettmers

Out of nowhere: https://t.co/6yiqACHguN far better translator than Google. Begs the question: Can Google be overtaken in search too? #dlearn


snakers4 (Alexander), September 02, 07:04

На Каггле было соревнование про спутники. Я за ним не следил ибо решил, что оверкилл для моего уровня.

Топовые решения как правило с точки зрения читабельности кода и понятности (в том числе статей по итогу) - жесткое месиво - по понятными причинам, конечно.

Но тут какой-то чел разобрал топовые решения и якобы потратил в 4 раза меньше расчетов. Интересное чтение.

goo.gl/zAVrZN

#neural_nets

Satellite Image Segmentation: a Workflow with U-Net - Vooban

Development workflow of a U-Net Convolutional Neural Network (CNN) with Keras and TensorFlow. DSTL's satellite imagery feature detection Kaggle competition.


snakers4 (Alexander), September 01, 17:05

Натолкнулся на тематический сборник статей по теме Semantic Segmentation using Fully Convolutional Networks over the years

- Раз meetshah1995.github.io/semantic-segmentation/deep-learning/pytorch/visdom/2017/06/01/semantic-segmentation-over-the-years.html

- Два - github.com/mrgloom/awesome-semantic-segmentation

#neural_nets

mrgloom/awesome-semantic-segmentation


snakers4 (Alexander), September 01, 07:27

Занятный метод обучения попиксельных моделей если нет денег на разметку

- Обучаем модель рамках

- Делаем прогнозы

- Обучаемся на прогнозах

- Повторяем

- goo.gl/ot1xnW

- arxiv.org/abs/1503.01640

#neural_nets