Spark in me - Internet, data science, math, deep learning, philo

snakers4 @ telegram, 1182 members, 1225 posts since 2016

All this - lost like tears in rain.

Internet, data science, math, deep learning, philosophy. No bs.

Our website
- spark-in.me
Our chat
- goo.gl/IS6Kzz
DS courses review
- goo.gl/5VGU5A
- goo.gl/YzVUKf

snakers4 (Alexander), December 21, 04:52

Новый конкурс на Driven data. Вроде даже не мерзкий

- www.drivendata.org/competitions/50/worldbank-poverty-prediction/

#data_science

Pover-T Tests: Predicting Poverty

Measuring poverty is hard. Build algorithms from survey data to identify useful poverty indicators, simplify surveys and help The World bank put an end extreme poverty in our generation.


snakers4 (Alexander), December 21, 04:46

Блог пост с недавнего конкурса про рыб

- drivendata.co/blog/fish-winners/

#deep_learning

Meet the winners of the N+1 Fish, N+2 Fish challenge - DrivenData Labs


snakers4 (Alexander), December 20, 07:08

Прочитал статью про гугловый Nasnet

- ИЧСХ - статья не является наборищем формул и читается легко, kudos им за это

- arxiv.org/abs/1707.07012

- Статья в 1 картинку goo.gl/rNRB7h

-- Суть - они не случайно ищут архитектуру сети, а фиксируют, что у них будет 2 блока (один который не снижает размерность и один который снижате) и дальше проводят поиск архитектур на CIFAR-10, а потом проводят бенчмарк на Imagenet

-- В качестве учителя таких архитектур выступает обычная LSTM со 100 нейронами, которая "выдает" архитектуры

-- Что интересно - якобы их новая модель имеет +1.5% точности по сравнению с прошлыми sota моделями и случайным поиском

-- На практике - ее максимальная версия имеет больше весов и работает медленнее (раза в полтора - два), чем inception4 (!)

-- Все это считается несколько дней на 500 GPU

-- Как выглядит лучший найденный блок goo.gl/bfiCXS

-- Архитектура сетки - pics.spark-in.me/upload/cfb83f2791d287a4a7a700103a6ce1e5.png

-- Еще неявное преимущество модели - она линейная как бы и количество блоков вы можете выбрать на свое усмотрение

#data_science

#deep_learning

snakers4 (Alexander), December 19, 12:40

Forwarded from Econerso:

​​​​Молния: кто-то в Телеграме забыл продлить домен, и теперь статьи с telegra.ph временно недоступны. Ждём, пока исправят (или кто-нибудь зарегистрирует его на себя, что вызовет страшный переполох).

Не забывайте продлять домены, друзья.

Forwarded from Rosa Qualcosa:

snakers4 (Alexander), December 19, 08:23

Интересное в мире ML:

Научно-популярное

- Видео про философию работы ML алгоритмов - goo.gl/FsCRg7

Data Science:

- MS хочет добавить питон в эксель. Еще и анаконду купит небось.

-- goo.gl/tZ7e82

-- Стили для датафреймов pandas в excel - goo.gl/dhKWdo

-- И уже есть питон для экселя. Бедные сотрудники банков - www.pyxll.com

Deep Learning

- За кем следят участники NIPS в твиттере - goo.gl/y3DXWH

- Unet реально рулит - он еще и текст с картинок выделяет - goo.gl/WAEMYA

- Еще гайд про то, как ломать простую капчу - goo.gl/bkdRhi - в более продвинутых случаях помогут LSTM с attention и CTC (была статья на Distill)

- Самммари с NIPS - goo.gl/Ei7znA

- Пост Fchollet про software 2.0 - goo.gl/dAS2PL

Практическая крипота

- Приклеивание лиц к порно - goo.gl/saoR7D

#data_science

#deep_learning

#digest

How Do Machines Learn?

How do all the algorithms around us learn to do their jobs? SHARE ON THE TWEETBOOK: https://goo.gl/dGUHMV Discuss this video: http://reddit.com/r/cgpgrey Foo...


Если вы учите питон - то вам зайдет скорее всего

- github.com/parrt/lolviz

parrt/lolviz

lolviz - A simple Python data-structure visualization tool for lists of lists, lists, dictionaries; primarily for use in Jupyter notebooks / presentations


snakers4 (Alexander), December 19, 05:19

Если вы хотите поиграться с open-cv и keras - то вот вам еще один гайд как это сделать на raspberry pi

- goo.gl/5n75xV

#deep_learning

Keras and deep learning on the Raspberry Pi - PyImageSearch

In this guide you'll learn how to perform real-time deep learning on the Raspberry Pi using Keras, Python, and TensorFlow.


snakers4 (Alexander), December 18, 13:11

Узнал про существование такой штуки как Dask - по сути это некий аналог Apache spark, который шел от управления многопоточными и многокомпьютерными вычислениями. Сейчас он тоже поддерживает HDFS и его можно использовать для вычислений на кластере. Но, поскольку он является либой на питоне, то все фишки с pandas, numpy, sklearn и прочим - наследуются. В Spark надо или погружаться в их АПИ (которые по ощущениям как-то хреново документированы или более молодые) на скале или строить все вокруг ETL выгрузок.

Сейчас это не всегда актуально, т.к. проще собрать один сверхмощный PC, т.к. сейчас передача по сети - это боттлнек. Но может кому пригодится на работе

- Что такое - dask.pydata.org/en/latest/use-cases.html

- Сравнение с PySpark - dask.pydata.org/en/latest/spark.html

- dask.pydata.org/en/latest/cheatsheet.html

Dask is a parallel programming library that combines with the Numeric Python ecosystem to provide parallel arrays, dataframes, machine learning, and custom algorithms. It is based on Python and the foundational C/Fortran stack. Dask was originally designed to complement other libraries with parallelism, particular for numeric computing and advanced analytics, but has since broadened out. Dask is typically used on a single machine, but also runs well on a distributed cluster.

#data_science

snakers4 (Alexander), December 17, 19:07

youtu.be/YjjTPV2pXY0

AI Learns Noise Filtering For Photorealistic Videos | Two Minute Papers #215
The paper "Interactive Reconstruction of Monte Carlo Image Sequences using a Recurrent Denoising Autoencoder" is available here: research.nvidia.com/p...

youtu.be/WovbLx8C0yA

Enhance! Super Resolution From Google | Two Minute Papers #124
The paper "RAISR: Rapid and Accurate Image Super Resolution" is available here: arxiv.org/abs/1606.01299 Additional supplementary materials: https://...

snakers4 (Alexander), December 17, 11:12

Супер полезная штука в pandas - очень просто one-hot-encoding

le, u = df[feature].factorize()

df[feature] = le

#data_science

snakers4 (Alexander), December 15, 08:34

Знакомый посоветовал огромную базу с корпусами и моделями векторными для русского языка.

Стильно, модно молодежно

- rusvectores.org/ru/models/

- nlpub.ru/Russian_Distributional_Thesaurus

- opencorpora.org/?page=downloads

- vectors.nlpl.eu/repository/

Раньше я думал, что такого особо нет нигде.

#data_science

#nlp

RusVectōrēs: модели

РусВекторес: дистрибутивная семантика для русского языка, веб-интерфейс и модели для скачивания


snakers4 (Alexander), December 15, 02:14

Когда я читал про то, что в Америке есть праймериз, налоговый кодекс пишут богатые и прочую подобную хрень - это было смешно но занятно.

Но сейчас они правда пошли в регресс. Учитывая, что в Америке простому обывателю зачастую доступен очень плохой интернет из-за монополий - они там явно хотят кусочек пирога.

Today the Federal Communications Commission voted to eviscerate net neutrality 

У нас движется все к Северной Корее, у них к идиократии. Мир прекрасен.

snakers4 (Alexander), December 13, 19:40

www.youtube.com/watch?v=QmIM24JDE3A

Ну и чтобы не было вау-эффекта, то вот сбалансированный анализ этого

- goo.gl/VRFwVn

AI Beats Radiologists at Pneumonia Detection | Two Minute Papers #214
The paper "CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning" is available here: stanfordmlgroup.github.io/projects/c...

snakers4 (Alexander), December 13, 13:02

techcrunch.com/2017/12/12/google-opening-an-office-focused-on-artificial-intelligence-in-china/

Google is opening a China-based research lab focused on artificial intelligence

Google has officially announced that it is opening an AI center in Beijing, China. The confirmation comes after months of speculation fueled by a major push to hire AI talent inside the country.…


snakers4 (Alexander), December 12, 16:00

Forwarded from Roem.ru:

Хорошая новость для Facebook и плохая для СМИ.

Реформа новостной ленты Facebook привела к тому, что соцсеть уступила Google лидерство по количеству реферального трафика для СМИ. Все сидят в сети и не переходят по ссылкам

¯_(ツ)_/¯

https://m.roem.ru/12-12-2017/265127/google-oboshla-facebook/

Google обошла Facebook по количеству реферального трафика для издателей

Реформа новостной ленты Facebook привела к тому, что соцсеть сдала позиции ключевого источника внешнего трафика для СМИ


snakers4 (Alexander), December 11, 21:20

snakers4 (Alexander), December 11, 20:41

Размышления Бена Эванса про эволюцию технологий

- goo.gl/AX67Gj

Просто и офигенно

#internet

Presentation: Ten Year Futures

This autumn I gave the keynote at Andreessen Horowitz's annual 'Tech Summit' conference, talking about the state of tech and what's likely to happen in the next decade: mobile, Google / Apple / Facebook / Amazon, innovation, machine learning, autonomous cars, mixed reality and crypto-currencies.


snakers4 (Alexander), December 11, 17:09

snakers4 (Alexander), December 11, 16:34

youtu.be/ycKpEWyzl2o

PCs had a surprise comeback in 2017!
Snapdragon, Ryzen, and quad core Intel CPUs. A new Mac line. ChromeOS maturing. This industry is on fire 🔥 (The Story Behind Ep. 25) [[[ TWITTER POLL ]]]: ht...

snakers4 (Alexander), December 11, 10:01

Интересное в мире интернета:

Безумный мир

- Супер тонкий тролль вывел свой сарай в топ ресторанов trip advisor в Лондоне- goo.gl/7EqDaV

- 52 безумных факта в 2017 году - goo.gl/581Nmz

Интернет, IT

- Ben Evans - goo.gl/r2rwxe

- Apple скорее всего покупает shazam - goo.gl/1ZQ2zB

- Инстаграм тестирует мессенджер - goo.gl/72NGFL

- Guardian выходит на точку безубыточности - goo.gl/3PuqLf

- Гугл запускает с пяток India first продуктов - поиск, оптимизации ОС, телефон, платежную систему - goo.gl/V37HtC

- Как работают бизнес процессы модерации в крупных компаниях - goo.gl/Mfd9A5

Дивайсы

- Аналог интернет камеры за 20-30 баксов - goo.gl/Ztxm7s

- Adoption новых айфонов - внезапно очень быстро растет - goo.gl/QXEaYK

#internet

#digest

I Made My Shed the Top Rated Restaurant On TripAdvisor

And then served customers Iceland ready meals on its opening night.


snakers4 (Alexander), December 11, 09:33

52 безумных факта в 2017 году связанных с интернетом и технологиями.

- goo.gl/581Nmz

Несколько самых забавных

-- A fifth of all the Google searches handled via the mobile app and Android devices are voice searches

-- In 1990, more than a third of people on Earth lived on less than $1.90 a day, adjusted for local prices. By 2013, barely 10 percent of people did.

-- In Silicon Valley, startups that result in a successful exit have an average founding age of 47 years

-- A cryptocurrency mining company called Genesis Mining is growing so fast that they rent Boeing 747s to ship graphics cards to their Bitcoin mines in Iceland.

-- Beggars in China have sophisticated ways to collect payment; using QR Codes, WeChat accounts and in one case a Point Of Sale machine to collect donations.

#digest

52 things I learned in 2017

Between projects at Fluxx, and editing a book, I learned several learnings.


snakers4 (Alexander), December 09, 19:21

youtu.be/v1oWke0Qf1E

Universal Neural Style Transfer | Two Minute Papers #213
The paper "Universal Style Transfer via Feature Transforms" and its source code is available here: arxiv.org/abs/1705.08086 github.com/Yijunm...

snakers4 (Alexander), December 09, 10:22

Forwarded from Linuxgram:
Wine 3.0 Just Around the Corner with Direct3D 11 Support for AMD and Intel GPUs
—> goo.gl/eMBp8h

snakers4 (Alexander), December 08, 16:35

Прикол с работы. Потратил какое-то время на проверку архитектур из статей (уже продисконтировав на 90% весь мусор). В итоге оказалось, что простой энкодер + transfer learning лучше, чем то что предлагают ученые. Можно, конечно, сделать скидку на разницу в скорости работы в несколько раз - но иметь 100 или 300 FPS - разницы особо нет.

Вывод - ученые зачастую пишут статьи не на результат, а чтобы было, если это не касается прорывных архитектур или статей. Также зачастую в расчет не принимается вообще насколько бредовой является такая архитектура или насколько непрактичной.

Sad but true.

#data_science

snakers4 (Alexander), December 08, 10:25

Про разницу между cosine similarity и евклидовым расстоянием. Суть - евклидово расстояние зависит от длины вектора, а cosine similarity - нет.

cmry.github.io/notes/euclidean-v-cosine

Первое лучше использовать в случаях, когда пространства многомерные и длина векторов не особо имеет смысл.

#data_science

SDM - Euclidean vs. Cosine Distance

This post was written as a reply to a question asked in theSocial Data Mining course.


snakers4 (Alexander), December 08, 08:12

Иллюстрация к новому алгоритму DeepMind для тренировки своих сетей

- deepmind.com/blog/population-based-training-neural-networks/#gif-133

#deep_lerning

Population based training of neural networks | DeepMind

We introduce a new method for training neural networks which allows an experimenter to quickly choose the best set of hyperparameters and model for the task. This technique - known as Population Based Training - trains and optimises a pool of networks at the same time, allowing the optimal set-up to be quickly found. Crucially, this adds no computational overhead, can be done as quickly as traditional techniques and is easy to integrate into existing machine learning pipelines.


snakers4 (Alexander), December 08, 07:50

Просто несколько графиков отсюда - goo.gl/efmUYg

- Papers по годам - goo.gl/KnZyFb

- Звезды на гите - goo.gl/pQNPR8 (почему TF такое ужасное АПИ имеет - вероятно т.к. много пошло на маркетинг)

- Конференции - goo.gl/NGAedK

- Точность Imagenet - goo.gl/EmvBfo

- Самые крутые достижения AI за последние годы - goo.gl/NNg95U

#data_science

snakers4 (Alexander), December 08, 07:39

venturebeat.com/2017/12/07/nvidia-launches-new-titan-v-desktop-gpu-to-accelerate-ai-computation/

Nvidia launches Titan V desktop GPU to accelerate AI computation

Nvidia launched a new desktop GPU today that’s designed to bring massive amounts of power to people who are working on machine learning applications. The new Titan V card will provide customers with a Nvidia Volta chip that they can plug into a desktop computer.


snakers4 (Alexander), December 08, 07:31

Интересное в мире ML / Deep Learning

Как обычно пропускаю через себя много мусора, чтобы найти что-то ценное =)

"Книги"

- Еще одна "книга" - записки ML специалиста - goo.gl/Wmes7p

Python

- Если хотите быстро понять в чем разница между hdf5 и bcolz вам сюда - goo.gl/wfcCri

Reading and writing data to a bcolz.carray is typically a lot faster than HDF5- Есть еще pytables - но я читал, что он более монструозный. Вообще такие штуки нужны если у вас есть массивы на сотни миллионов - миллиарды строк и вы хотите быстро оттуда читать

- Прослойка, чтобы работать с датафреймами на GPU - goo.gl/r8KPGd - если вы в курсе зачем и как - поделитесь опытом в чате ( GPU Dataframe of GPU Open Analytics Initialive (GOAI) )

Deep learning

- Сетки работают т.к. в мире физики доминируют относительно простые функции - goo.gl/JmTA2Y

- Adversarial example для вашего мозга - попробуйте понять что это - goo.gl/PGdX5m

- Фреймворки - новый способ доминирования на рынке ML - goo.gl/ZtMJVF (почему интерфейсы TF такое говно тогда? =) )

- PR кривые в тензорборд - может кому надо - goo.gl/5gM6a1

- Новая статья на Хабре про интуиции нейросетей - goo.gl/fwxcrC

- Безумие - но из попиксельных карт теперь можно создавать улицы в 2К разрешении

-- goo.gl/hoCA4C

-- www.youtube.com/watch?v=3AIpPlzM_qs

-- генератор goo.gl/myMXTQ

-- дискриминатор goo.gl/oki5rq

- Нашумевший StarGan - goo.gl/Gsvuoe

Machine learning / data science

- Внезапно гугл применил свой алгоритм для Го для шахмат - goo.gl/jwTtwb

- Новая статья на Distill - goo.gl/uLXJMr - про artificial intelligence augmentation (AIA): the use of AI systems to help develop new methods for intelligence augmentation - внезапно они тоже нарисовали списрального кота - goo.gl/4KJemD

- Фейсбук и алгоритмы предсказания суицидов - goo.gl/tsZvfH

- Статья от авторов LightGBM - goo.gl/NQFxai

Датасеты

- Мозилла открывает модель и очень много данных по распознаванию голоса

-- данные - voice.mozilla.org/data

-- модель - github.com/mozilla/DeepSpeech

Железо

- Nvidia Titan V - пускайте слюни за US$3k - www.youtube.com/watch?time_continue=43&v=NPrfiOldKf8

#digest

#data_science

#deep_learning

snakers4 (Alexander), December 07, 07:15

Нашел просто великолепный конвертер моделей из pytroch в keras, который по идее должен снизить длину пути в продакшен + сборник других конвертеров:

- github.com/ysh329/deep-learning-model-convertor

- github.com/nerox8664/pytorch2keras

Мне очень понравилось как умно автор решил вопрос конвертации из Pytorch - он идет по графу вычислений и создает модель на keras нативным образом, что по сути дает большую свободу маневра.

#deep_learning

#data_science

ysh329/deep-learning-model-convertor

deep-learning-model-convertor - The convertor/conversion of deep learning models for different deep learning frameworks/softwares.


snakers4 (Alexander), December 07, 05:00

Forwarded from Roem.ru:

С сегодняшнего дня, 7 декабря, для получения заграничной покупки доставленной не «Почтой России», а Boxberry, DPD, SPSR, СДЭК и т.д., нужно предъявить свой ИНН и ссылку на купленные товары в онлайн-магазине → m.roem.ru/05-12-2017/264736/ny-gift-for-post/

Таможня снова усложнит конкурентам «Почты России» новогоднюю доставку покупок из иностранных интернет-магазинов

С 7 декабря покупатели, предпочитающие экспресс-доставку, будут получать покупки после предъявления ИНН и ссылок на купленные за границей товары // Роем в вашем Телеграме: https://telegram.me/roemru