Spark in me - Internet, data science, math, deep learning, philo

snakers4 @ telegram, 1166 members, 1156 posts since 2016

All this - lost like tears in rain.

Internet, data science, math, deep learning, philosophy.
No bullshit.

На чай
- goo.gl/zveIOr
- Договор ТКС 5011673505

Сайт spark-in.me
Файл goo.gl/5VGU5A
Чат goo.gl/IS6Kzz

August 16, 08:11

В проекте с птицами у меня вышло 800,000 файлов (и это не полный датасет).

Можно конечно взять обычный генератор Keras, но люди пишут что многопоточность ускоряет тренировку нейросетей в 3-4 раза

- github.com/stratospark/keras-multiprocess-image-data-generator

В сочетании с SqueezeNet - можно добиться скорости тренировки нейросети еще в несколько раз выше. На практике у меня также получалось ускорять разные архитектуры нейросетей вставляя в них batch_norm слои.

Озадачился вопросом - как читать очень много маленьких файлов с диска параллельно, причем при этом читая положение файлов из dataframe и как написать генератор на Keras, который бы пользовался этим ускорением.

Натолкнулся на целый ряд полезных источников и ссылок

- Раз bcolz.readthedocs.io/en/latest/intro.html#bcolz-at-glance

- Два techblog.appnexus.com/a-keras-multithreaded-dataframe-generator-for-millions-of-image-files-84d3027f6f43

- Три gist.github.com/timehaven/257eef5b0e2d9e2625a9eb812ca2226b#file-classifier_from_little_data_script_dfgen-py

- Четыре github.com/fchollet/keras/issues/1627

Может кому-то пригодится подборка.

Когда я разберусь в этих дебрях - выложу работающий бойлерплейт.

#data_science

stratospark/keras-multiprocess-image-data-generator

keras-multiprocess-image-data-generator - Accelerating Deep Learning with Multiprocess Image Augmentation in Keras