小编tjb*_*305的帖子

Windows Scipy安装:找不到Lapack/Blas资源

我正在尝试将python和一系列软件包安装到64位Windows 7桌面上.我安装了Python 3.4,安装了Microsoft Visual Studio C++,并成功安装了numpy,pandas和其他一些.我在尝试安装scipy时遇到以下错误;

numpy.distutils.system_info.NotFoundError: no lapack/blas resources found
Run Code Online (Sandbox Code Playgroud)

我正在使用pip install离线,我正在使用的安装命令是;

pip install --no-index --find-links="S:\python\scipy 0.15.0" scipy
Run Code Online (Sandbox Code Playgroud)

我已经阅读了这里有关要求编译器的帖子,如果我理解正确的是VS C++编译器.我正在使用2010版本,因为我正在使用Python 3.4.这适用于其他包.

我是否必须使用窗口二进制文件,或者有一种方法可以让pip install工作吗?

非常感谢您的帮助

python windows numpy pip python-3.x

163
推荐指数
7
解决办法
24万
查看次数

如何在单元测试中使用pandas数据帧

我正在开发一组python脚本来预处理数据集,然后使用scikit-learn生成一系列机器学习模型.我想开发一组单元测试来检查数据预处理函数,并希望能够使用一个小的测试pandas数据帧,我可以为其确定答案并在断言语句中使用它.

我似乎无法加载数据帧并使用self将其传递给单元测试.我的代码看起来像这样;

def setUp(self):
    TEST_INPUT_DIR = 'data/'
    test_file_name =  'testdata.csv'
    try:
        data = pd.read_csv(INPUT_DIR + test_file_name,
            sep = ',',
            header = 0)
    except IOError:
        print 'cannot open file'
    self.fixture = data

def tearDown(self):
    del self.fixture

def test1(self):    
    self.assertEqual(somefunction(self.fixture), somevalue)

if __name__ == '__main__':
    unittest.main()
Run Code Online (Sandbox Code Playgroud)

谢谢您的帮助.

python pandas python-unittest

15
推荐指数
2
解决办法
1万
查看次数

findspark.init()IndexError:列表索引超出范围错误

在Python 3.5 Jupyter环境中运行以下内容时,我收到以下错误.关于是什么导致它的任何想法?

import findspark
findspark.init()
Run Code Online (Sandbox Code Playgroud)

错误:

IndexError                                Traceback (most recent call
last) <ipython-input-20-2ad2c7679ebc> in <module>()
      1 import findspark
----> 2 findspark.init()
      3 
      4 import pyspark

/.../anaconda/envs/pyspark/lib/python3.5/site-packages/findspark.py in init(spark_home, python_path, edit_rc, edit_profile)
    132     # add pyspark to sys.path
    133     spark_python = os.path.join(spark_home, 'python')
--> 134     py4j = glob(os.path.join(spark_python, 'lib', 'py4j-*.zip'))[0]
    135     sys.path[:0] = [spark_python, py4j]
    136 

IndexError: list index out of range
Run Code Online (Sandbox Code Playgroud)

python py4j pyspark

12
推荐指数
2
解决办法
1万
查看次数

在Python和PySpark中相当于R data.table滚动连接

有谁知道如何在PySpark中进行R data.table滚动连接?

从Ben 那里借用例子和滚动连接的很好的解释;

sales<-data.table(saleID=c("S1","S2","S3","S4","S5"), 
              saleDate=as.Date(c("2014-2-20","2014-5-1","2014-6-15","2014-7- 1","2014-12-31")))

commercials<-data.table(commercialID=c("C1","C2","C3","C4"), 
                    commercialDate=as.Date(c("2014-1-1","2014-4-1","2014-7-1","2014-9-15")))

setkey(sales,"saleDate")
setkey(commercials,"commercialDate")

sales[commercials, roll=TRUE]
Run Code Online (Sandbox Code Playgroud)

结果是;

saleDate saleID commercialID
1: 2014-01-01     NA    C1
2: 2014-04-01     S1    C2
3: 2014-07-01     S4    C3
4: 2014-09-15     S4    C4
Run Code Online (Sandbox Code Playgroud)

非常感谢您的帮助。

python r data.table pyspark pyspark-sql

4
推荐指数
1
解决办法
1232
查看次数

如何查看使用 scikit-learn 生成的模型?

我正在学习使用 scikit-learn 作为 R/SAS EM 的替代品来生成机器学习模型。我可以生成逻辑回归分类器并将其应用于测试集,但我似乎无法确定如何查看回归公式?我知道我不能保存为 PMML,只能使用 joblib 或 pickle dumps,但这些不是很直观。

谢谢,

托比

python scikit-learn

0
推荐指数
1
解决办法
1366
查看次数