PySparkX.X has python 2 kernel without "conda standard" libraries #217

davideveronese · 2018-01-23T17:55:34Z

It looks like the environments:

PySpark
PySpark3

actually have the same 2.7 kernel, that lacks packages such as numpy, pandas, ...etc.
Even some spark DataFrame functions rely on those, therefore the usability is quite limited at the moment.
A Docker container update might be #necessary.

davideveronese · 2018-03-05T15:22:55Z

Più nel dettaglio:
“Pyspark“ kernel (cosi’ come “Pyspark3”) manca di librerie base (es: numpy) all’interno della session livy.
All’esterno della session (usando “%%local”) numpy e’ presente, ma manca ad esempio seaborn.
Da decidere se prevediamo di fare la maggior parte delle analisi nella session o in %%local; passare variabili da una all’altra non e’ semplicissimo.

Kernel PySpark3 sembra uguale a PySpark (python2) nella session spark:

qui sotto la chiamata per mostrare la versione di python:
import os
os.sys.version
'2.7.5 (default, Nov 6 2016, 00:28:07) \n[GCC 4.8.5 20150623 (Red Hat 4.8.5-11)]'

eseguendo invece in %%local:
%%local
import os
os.sys.version

'3.5.4 | packaged by conda-forge | (default, Aug 10 2017, 01:38:41) \n[GCC 4.8.2 20140120 (Red Hat 4.8.2-15)]'

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

PySparkX.X has python 2 kernel without "conda standard" libraries #217

PySparkX.X has python 2 kernel without "conda standard" libraries #217

davideveronese commented Jan 23, 2018

davideveronese commented Mar 5, 2018 •

edited

Loading

PySparkX.X has python 2 kernel without "conda standard" libraries #217

PySparkX.X has python 2 kernel without "conda standard" libraries #217

Comments

davideveronese commented Jan 23, 2018

davideveronese commented Mar 5, 2018 • edited Loading

davideveronese commented Mar 5, 2018 •

edited

Loading