我上传的JSON格式到新的Azure的机器学习工作室(studio.azureml.net)的纯文本文件,但我不能与任何模块明文对象连接.我总是得到错误消息"无法将PlainText连接到数据集......".
在文档(这里)写道:"可以读取纯文本,然后在下游预处理模块的帮助下将其拆分成列."但是我找不到任何下游预处理模块.
我创建了各种大小的数据集,例如1GB,2GB,3GB,4GB(<10 GB),并在Azure ML上执行各种机器学习模型.
1)我可以知道Azure ML服务中提供的服务器规范(RAM,CPU).
2)有时读者会说"内存耗尽"大于4GB的数据.虽然azure ml应该能够按照文档处理10GB的数据.
3)如果我并行运行多个实验(在浏览器的不同选项卡中),则需要更多时间.
4)有没有办法在Azure ML中设置RAM,CPU核心
performance azure azure-machine-learning-studio cortana-intelligence
我们正在尝试使用支持向量机对我们的数据集进行预测,但只有70,000行和7个功能 - 我们在Google DataLabs上尝试过SVM,但我们的数据集太大,无法在DataLabs VM的任何合理有限时间内进行计算.
我们希望利用一种方法来扩展CPU内核的统计方法,例如Azure Machine Learning Studio上的Revolution Analytics版本的R,但我们的数据是在Google BigQuery上.
我们如何在Azure Machine Learning Studio上连接R脚本以在Google BigQuery上使用我们的数据集?
r svm google-bigquery azure-machine-learning-studio google-cloud-datalab
Azure ML支持告诉我,分隔符必须是逗号,这会导致数据以分号作为分隔符并且单元格值中包含大量逗号的数据会造成太多麻烦.
那么如何在Azure ML中处理以分号分隔的CSV文件?
csv escaping azure escapestring azure-machine-learning-studio
与这里类似的问题,但现在在Python软件包上。当前,Azure ML中缺少CVXPY。我还试图让其他求解器(例如GLPK,CLP和COINMP)在Azure ML中工作。
如何在Azure ML中安装Python包?
有关尝试安装Azure ML中找不到的Python软件包的更新。
我按照Peter Pan的指示进行了操作,但是我认为Azure ML中的Anaconda 4和Python 3.5的32位CVXPY文件是错误的,日志和错误在此处。
Run Code Online (Sandbox Code Playgroud)[Information] Running with Python 3.5.1 |Anaconda 4.0.0 (64-bit)| (default, Feb 16 2016, 09:49:46) [MSC v.1900 64 bit (AMD64)]
使用win_amd64文件更新2(在此处粘贴)
Run Code Online (Sandbox Code Playgroud)[Information] Extracting Script Bundle.zip to .\Script Bundle [Information] File Name Modified Size [Information] cvxopt-1.1.9-cp35-cp35m-win_amd64.whl 2017-06-07 01:03:34 1972074 [Information] __MACOSX/ 2017-06-07 01:26:28 0 [Information] __MACOSX/._cvxopt-1.1.9-cp35-cp35m-win_amd64.whl 2017-06-07 01:03:34 452 [Information] cvxpy-0.4.10-py3-none-any.whl 2017-06-07 00:25:36 300880 [Information] __MACOSX/._cvxpy-0.4.10-py3-none-any.whl 2017-06-07 00:25:36 444 [Information] ecos-2.0.4-cp35-cp35m-win_amd64.whl 2017-06-07 01:03:40 56522 [Information] …
我在尝试在Azure ML Studio中加载数据集时遇到了一些问题,这是一个包含看起来像DateTime的列的数据集,但实际上是一个字符串.Azure ML Studio在内部将值转换为DateTimes,并且没有任何争论似乎说服它们实际上是字符串.
这是一个问题,因为在转换过程中,值会丢失精度并开始显示为重复,而实际上它们是唯一的.有人知道ML Studio是否可以配置为在导入数据集时不推断列的数据类型?
现在,对于漫长的(呃)故事:)
我在这里使用公共数据集 - 特别是Kaggle的纽约市票价预测竞赛.我想看看我是否可以使用Azure ML Studio做一个快速而肮脏的解决方案,但是数据集的唯一键值是形式
2015-01-27 13:08:24.0000003
2015-01-27 13:08:24.0000002
2011-10-06 12:10:20.0000001
等等.
在我的实验中导入它们时,键值将转换为DateTime,使它们不再是唯一的,即使它们在csv中是唯一的.毋庸置疑,这使我无法向Kaggle提交任何解决方案,因为我无法唯一地识别行:).
我尝试过以下方法:
我用大的5.5GB train
数据集重现了这种行为,但也使用了更易于管理的sample_submission
数据集.
很想知道是否有某种解决方法告诉ML Studio在加载数据集时不要尝试转换此列.我在这里专门针对Azure ML Studio解决方案,因为我不想对数据集进行任何预处理.
我有一个带有反向传播训练器的神经网络的最小示例,可以在IRIS数据集上对其进行测试。我从7个隐藏节点开始,它运作良好。
我将隐藏层中的节点数减少到1(预计会失败),但是惊讶地发现精度提高了。
我在azure ml中设置了实验,只是为了验证这不是我的代码。那里同样,单个隐藏节点的准确性为98.3333%。
谁能向我解释这里发生了什么?
machine-learning backpropagation neural-network azure-machine-learning-studio
我正在使用NLTK进行文本分析的Azure ML实现,以下执行正在抛出
AssertionError: 1 columns passed, passed data had 2 columns\r\nProcess returned with non-zero exit code 1
Run Code Online (Sandbox Code Playgroud)
下面是代码
# The script MUST include the following function,
# which is the entry point for this module:
# Param<dataframe1>: a pandas.DataFrame
# Param<dataframe2>: a pandas.DataFrame
def azureml_main(dataframe1 = None, dataframe2 = None):
# import required packages
import pandas as pd
import nltk
import numpy as np
# tokenize the review text and store the word corpus
word_dict = {}
token_list = [] …
Run Code Online (Sandbox Code Playgroud) 我正在尝试使用我自己的数据集而不是 MNIST 数据集来重现下面的 2 个教程。 https://docs.microsoft.com/ja-jp/azure/machine-learning/service/tutorial-auto-train-models https://docs.microsoft.com/ja-jp/azure/machine-learning/service /tutorial-deploy-models-with-aml
关于 '/notebooks/tutorials/03.auto-train-models.ipynb' 没有问题。我有'model.pkl'。
但是,“/notebooks/tutorials/02.deploy-models.ipynb”在“预测测试数据”单元格中存在以下错误。我想这是“泡菜”和“进口”的问题。
请告诉我解决方案。
ModuleNotFoundError Traceback (most recent call last)
<ipython-input-6-11cf888b622f> in <module>
2 from sklearn.externals import joblib
3
----> 4 clf = joblib.load('./model.pkl')
5 # clf = joblib.load('./sklearn_mnist_model.pkl')
6 y_hat = clf.predict(X_test)
~/anaconda3_501/lib/python3.6/site-packages/sklearn/externals/joblib/numpy_pickle.py in load(filename, mmap_mode)
576 return load_compatibility(fobj)
577
--> 578 obj = _unpickle(fobj, filename, mmap_mode)
579
580 return obj
~/anaconda3_501/lib/python3.6/site-packages/sklearn/externals/joblib/numpy_pickle.py in _unpickle(fobj, filename, mmap_mode)
506 obj = None
507 try:
--> 508 obj = unpickler.load()
509 if unpickler.compat_mode: …
Run Code Online (Sandbox Code Playgroud) azure-machine-learning-studio ×10
azure ×6
python ×3
automl ×1
csv ×1
cvxpy ×1
dataframe ×1
escapestring ×1
escaping ×1
kaggle ×1
ml-studio ×1
nltk ×1
pandas ×1
performance ×1
pickle ×1
r ×1
regression ×1
svm ×1