我正在尝试将python和一系列软件包安装到64位Windows 7桌面上.我安装了Python 3.4,安装了Microsoft Visual Studio C++,并成功安装了numpy,pandas和其他一些.我在尝试安装scipy时遇到以下错误;
numpy.distutils.system_info.NotFoundError: no lapack/blas resources found
Run Code Online (Sandbox Code Playgroud)
我正在使用pip install离线,我正在使用的安装命令是;
pip install --no-index --find-links="S:\python\scipy 0.15.0" scipy
Run Code Online (Sandbox Code Playgroud)
我已经阅读了这里有关要求编译器的帖子,如果我理解正确的是VS C++编译器.我正在使用2010版本,因为我正在使用Python 3.4.这适用于其他包.
我是否必须使用窗口二进制文件,或者有一种方法可以让pip install工作吗?
非常感谢您的帮助
我正在开发一组python脚本来预处理数据集,然后使用scikit-learn生成一系列机器学习模型.我想开发一组单元测试来检查数据预处理函数,并希望能够使用一个小的测试pandas数据帧,我可以为其确定答案并在断言语句中使用它.
我似乎无法加载数据帧并使用self将其传递给单元测试.我的代码看起来像这样;
def setUp(self):
TEST_INPUT_DIR = 'data/'
test_file_name = 'testdata.csv'
try:
data = pd.read_csv(INPUT_DIR + test_file_name,
sep = ',',
header = 0)
except IOError:
print 'cannot open file'
self.fixture = data
def tearDown(self):
del self.fixture
def test1(self):
self.assertEqual(somefunction(self.fixture), somevalue)
if __name__ == '__main__':
unittest.main()
Run Code Online (Sandbox Code Playgroud)
谢谢您的帮助.
在Python 3.5 Jupyter环境中运行以下内容时,我收到以下错误.关于是什么导致它的任何想法?
import findspark
findspark.init()
Run Code Online (Sandbox Code Playgroud)
错误:
IndexError Traceback (most recent call
last) <ipython-input-20-2ad2c7679ebc> in <module>()
1 import findspark
----> 2 findspark.init()
3
4 import pyspark
/.../anaconda/envs/pyspark/lib/python3.5/site-packages/findspark.py in init(spark_home, python_path, edit_rc, edit_profile)
132 # add pyspark to sys.path
133 spark_python = os.path.join(spark_home, 'python')
--> 134 py4j = glob(os.path.join(spark_python, 'lib', 'py4j-*.zip'))[0]
135 sys.path[:0] = [spark_python, py4j]
136
IndexError: list index out of range
Run Code Online (Sandbox Code Playgroud) 有谁知道如何在PySpark中进行R data.table滚动连接?
从Ben 那里借用例子和滚动连接的很好的解释;
sales<-data.table(saleID=c("S1","S2","S3","S4","S5"),
saleDate=as.Date(c("2014-2-20","2014-5-1","2014-6-15","2014-7- 1","2014-12-31")))
commercials<-data.table(commercialID=c("C1","C2","C3","C4"),
commercialDate=as.Date(c("2014-1-1","2014-4-1","2014-7-1","2014-9-15")))
setkey(sales,"saleDate")
setkey(commercials,"commercialDate")
sales[commercials, roll=TRUE]
Run Code Online (Sandbox Code Playgroud)
结果是;
saleDate saleID commercialID
1: 2014-01-01 NA C1
2: 2014-04-01 S1 C2
3: 2014-07-01 S4 C3
4: 2014-09-15 S4 C4
Run Code Online (Sandbox Code Playgroud)
非常感谢您的帮助。
我正在学习使用 scikit-learn 作为 R/SAS EM 的替代品来生成机器学习模型。我可以生成逻辑回归分类器并将其应用于测试集,但我似乎无法确定如何查看回归公式?我知道我不能保存为 PMML,只能使用 joblib 或 pickle dumps,但这些不是很直观。
谢谢,
托比
python ×5
pyspark ×2
data.table ×1
numpy ×1
pandas ×1
pip ×1
py4j ×1
pyspark-sql ×1
python-3.x ×1
r ×1
scikit-learn ×1
windows ×1