Spark in me - Internet, data science, math, deep learning, philo

snakers4 @ telegram, 1319 members, 1513 posts since 2016

All this - lost like tears in rain.

Data science, deep learning, sometimes a bit of philosophy and math. No bs.

Our website
- spark-in.me
Our chat
- goo.gl/WRm93d
DS courses review
- goo.gl/5VGU5A
- goo.gl/YzVUKf

December 18, 13:11

Узнал про существование такой штуки как Dask - по сути это некий аналог Apache spark, который шел от управления многопоточными и многокомпьютерными вычислениями. Сейчас он тоже поддерживает HDFS и его можно использовать для вычислений на кластере. Но, поскольку он является либой на питоне, то все фишки с pandas, numpy, sklearn и прочим - наследуются. В Spark надо или погружаться в их АПИ (которые по ощущениям как-то хреново документированы или более молодые) на скале или строить все вокруг ETL выгрузок.

Сейчас это не всегда актуально, т.к. проще собрать один сверхмощный PC, т.к. сейчас передача по сети - это боттлнек. Но может кому пригодится на работе

- Что такое - dask.pydata.org/en/latest/use-cases.html

- Сравнение с PySpark - dask.pydata.org/en/latest/spark.html

- dask.pydata.org/en/latest/cheatsheet.html

Dask is a parallel programming library that combines with the Numeric Python ecosystem to provide parallel arrays, dataframes, machine learning, and custom algorithms. It is based on Python and the foundational C/Fortran stack. Dask was originally designed to complement other libraries with parallelism, particular for numeric computing and advanced analytics, but has since broadened out. Dask is typically used on a single machine, but also runs well on a distributed cluster.

#data_science