标签: azure-machine-learning-studio

在azure ml中运行笔记本时,如何最好地将azure blob csv格式转换为pandas数据帧

我有一些大的csv(制表符分隔)数据存储为azure blob,我想从这些创建一个pandas数据帧.我可以在本地做到如下:

from azure.storage.blob import BlobService
import pandas as pd
import os.path

STORAGEACCOUNTNAME= 'account_name'
STORAGEACCOUNTKEY= "key"
LOCALFILENAME= 'path/to.csv'        
CONTAINERNAME= 'container_name'
BLOBNAME= 'bloby_data/000000_0'

blob_service = BlobService(account_name=STORAGEACCOUNTNAME, account_key=STORAGEACCOUNTKEY)

# Only get a local copy if haven't already got it
if not os.path.isfile(LOCALFILENAME):
    blob_service.get_blob_to_path(CONTAINERNAME,BLOBNAME,LOCALFILENAME)

df_customer = pd.read_csv(LOCALFILENAME, sep='\t')
Run Code Online (Sandbox Code Playgroud)

但是,当在azure ML笔记本上运行笔记本时,我无法"保存本地副本"然后从csv读取,所以我想直接进行转换(类似于pd.read_azure_blob(blob_csv)或只是pd .read_csv(blob_csv)将是理想的).

我可以获得所需的最终结果(blob csv数据的pandas数据帧),如果我首先创建一个azure ML工作区,然后将数据集读入其中,最后使用https://github.com/Azure/Azure-MachineLearning -ClientLibrary-Python以数据集的形式访问数据集,但我更喜欢直接从blob存储位置读取数据集.

python azure azure-storage-blobs pandas azure-machine-learning-studio

7
推荐指数
4
解决办法
6071
查看次数

如何在Azure ML中为strptime函数定义当前时区,未知时区'localtime'

我在Azure机器学习中的Execute R模块中操作的所有这些日期在输出中写为空白 - 也就是说,这些日期列存在,但这些列中没有值.

包含我正在读入数据框的日期信息的源变量有两种不同的日期格式.它们如下:

usage$Date1=c(‘8/6/2015’   ‘8/20/2015’  ‘7/9/2015’)
usage$Date2=c(‘4/16/2015 0:00’,  ‘7/1/2015 0:00’, ‘7/1/2015 0:00’) 
Run Code Online (Sandbox Code Playgroud)

我在AML中检查了日志文件,而AML找不到本地时区.日志文件警告具体:[ModuleOutput] 1:在strptime(x,format,tz = tz):[ModuleOutput]无法识别当前时区'C':[ModuleOutput]请设置环境变量'TZ'[ModuleOutput] [ModuleOutput ] 2:在strptime(x,format,tz = tz):未知时区'localtime'

我在这里提到了另一个关于为strptime设置默认时区的答案

R strptime/as.POSIXct中的未知时区名称

我更改了代码以显式定义全局环境时间变量.

Sys.setenv(TZ='GMT')


####Data frame usage cleanup, format and labeling
usage<-as.data.frame(usage)
usage$Date1<-as.character(usage$Date1)
usage$Date1<-as.POSIXct(usage$Date1, "%m/%d/%Y",tz="GMT")
usage$Date1<-format(usage$Date1, "%m/%d/%Y")
usage$Date1<-as.Date(usage$Date1, "%m/%d/%Y")
usage<-as.data.frame(usage)

usage$Date2<- as.POSIXct(usage$Date2, "%m/%d/%Y",tz="GMT")
usage$Date2<- format(usage$Date2,"%m/%d/%Y")
usage$Date2<-as.Date(usage$Date2, "%m/%d/%Y")
usage<-as.data.frame(usage)
Run Code Online (Sandbox Code Playgroud)

问题仍然存在 - 因此AzureML不会将这些变量写出来,而是将这些列写为空白.
(此代码适用于R studio,我假设本地时间来自系统.)

在阅读关于此问题的两篇博客文章后,似乎Azure ML不支持某些日期时间格式:

http://blogs.msdn.com/b/andreasderuiter/archive/2015/02/03/troubleshooting-error-1000-rpackage-library-exception-failed-to-convert-robject-to-dataset-when-running- R-脚本功能于蔚ml.aspx

http://www.mikelanzetta.com/2015/01/data-cleaning-with-azureml-and-r-dates/

所以我尝试在将它发送到输出流之前转换为POSIXct,我已经完成如下:tenantusage $ Date1 = as.POSIXct(tenantusage $ Date1,"%m /%d /%Y",tz ="EST5EDT "); tenantusage $ Date2 = as.POSIXct(tenantusage $ Date2,"%m …

datetime r azure-machine-learning-studio

7
推荐指数
1
解决办法
1488
查看次数

机器学习建议

我有很多学生根据他们的分数被一些大学选中的数据.我刚接触机器学习.我是否可以提供一些建议如何添加Azure机器学习以根据他们的分数预测他们可以获得的大学

azure-machine-learning-studio

7
推荐指数
1
解决办法
734
查看次数

如何使用R在Azure ML中获取置信区间?

我碰到这个问题,询问是否 Azure的ML可以计算出信心-或概率-用于行数据预测.但是,鉴于该问题的答案是No并建议使用R,我试图弄清楚如何使用R来完成回归模型.

有没有人有关于在哪里寻找此参考的建议?

我的方案是我使用Azure ML构建了一个提升决策树回归模型,该模型输出一Scored Label列.但我不知道回归分析是否足以编写R代码以使用输出的模型来获得置信区间.

我正在寻找任何可以帮助我理解如何在R中执行此操作的参考(与Azure ML相结合).

regression r machine-learning azure azure-machine-learning-studio

7
推荐指数
1
解决办法
386
查看次数

如何在Azure Machine Learning Studio上的jupyter笔记本中安装TensorFlow

我正在尝试测试Azure Machine Learning Studio.

我想使用TensorFlow,但它没有安装在Jupyter笔记本上.

如何在笔记本上使用TensorFlow,Theano,Keras等机器学习库?

我试过这个:

!pip install tensorflow 
Run Code Online (Sandbox Code Playgroud)

但是,我得到的错误如下:

Collecting tensorflow
  Downloading tensorflow-0.12.0rc0-cp34-cp34m-manylinux1_x86_64.whl (43.1MB)
    100% |################################| 43.1MB 27kB/s 
Collecting protobuf==3.1.0 (from tensorflow)
  Downloading protobuf-3.1.0-py2.py3-none-any.whl (339kB)
    100% |################################| 348kB 3.7MB/s 
Collecting six>=1.10.0 (from tensorflow)
  Downloading six-1.10.0-py2.py3-none-any.whl
Requirement already satisfied: numpy>=1.11.0 in /home/nbcommon/anaconda3_23/lib/python3.4/site-packages (from tensorflow)
Requirement already satisfied: wheel>=0.26 in /home/nbcommon/anaconda3_23/lib/python3.4/site-packages (from tensorflow)
Requirement already satisfied: setuptools in /home/nbcommon/anaconda3_23/lib/python3.4/site-packages/setuptools-27.2.0-py3.4.egg (from protobuf==3.1.0->tensorflow)
Installing collected packages: six, protobuf, tensorflow
  Found existing installation: six 1.9.0
    DEPRECATION: Uninstalling a distutils installed project (six) has …
Run Code Online (Sandbox Code Playgroud)

theano azure-machine-learning-studio keras tensorflow jupyter-notebook

7
推荐指数
1
解决办法
2369
查看次数

如何从 Azure Machine Studio 下载经过训练的模型?

我在 azure ml studio 中创建了两个模型,我想下载这些模型。

是否可以从 azure ml studio 下载训练和评分模型?

azure azure-machine-learning-studio

7
推荐指数
1
解决办法
5876
查看次数

如何基于已部署的Web服务查找Azure ML实验

我有一个我在Azure Machine Learning Studio中创建的ML实验列表.我已将它们部署为Web服务(新版本,而不是经典版本).

如何进入Azure机器学习Web服务,单击Web服务(从实验部署),然后导航回实验/预测模型,并将其提供给它?

我可以在两者之间找到的唯一链接是通过预测实验更新Web服务,然后确认Web服务是什么.我可以看到,在实验和Web服务中,"ExperimentId"是URL中的GUID,所以希望这是可能的.

我的理由是依靠匹配的命名约定等来选择适当的模型进行更新会受到人为错误的影响.

web-services azure azure-machine-learning-studio

7
推荐指数
1
解决办法
192
查看次数

从Azure ML中的pyodbc连接到Azure SQL数据库的驱动程序的名称是什么?

我正在尝试使用Azure ML中的"执行python脚本"模块创建一个" 读取器 "替代方法来从Azure SQL数据库中读取数据.在这样做时,我正在尝试使用pyodbc库连接到Azure Sql.这是我的代码:

def azureml_main(dataframe1 = None, dataframe2 = None):
    import pyodbc   
    import pandas as pd

    conn = pyodbc.connect('DRIVER={SQL Server}; SERVER=server.database.windows.net; DATABASE=db_name; UID=user; PWD=Password')
    SQLCommand = ('''select * from table1 ''')
    data_frame = pd.read_sql(SQLCommand, conn)
    return data_frame,
Run Code Online (Sandbox Code Playgroud)

还试图使用不同的驱动程序名称:{SQL Server Native Client 11.0}

这是我得到的错误:

Error: ('IM002', '[IM002] [Microsoft][ODBC Driver Manager] Data source name not found and no default driver specified (0) (SQLDriverConnect)')
Run Code Online (Sandbox Code Playgroud)

有谁知道我应该使用哪个驱动程序?

只是为了确保,我尝试了"{SQL Server}","{SQL Server Native Client 11.0}"和"{SQL Server Native Client 10.0}"并得到了同样的错误

我也尝试了不同的格式:

conn = …
Run Code Online (Sandbox Code Playgroud)

python pyodbc azure-machine-learning-studio azure-sql-database cortana-intelligence

6
推荐指数
1
解决办法
1718
查看次数

使用pandas创建虚拟变量时,Jupyter笔记本内核会死掉

我正在参加Walmart Kaggle比赛,我正在尝试创建一个"FinelineNumber"栏目的虚拟列.对于上下文,df.shape返回(647054, 7).我正在尝试制作一个虚拟列df['FinelineNumber'],它有5,196个唯一值.结果应该是形状的数据框(647054, 5196),然后我计划到concat原始数据框.

几乎每次我运行时fineline_dummies = pd.get_dummies(df['FinelineNumber'], prefix='fl'),我得到以下错误消息The kernel appears to have died. It will restart automatically.我在具有16GB RAM的MacBookPro上的jupyter笔记本中运行python 2.7.

有人可以解释为什么会发生这种情况(以及为什么它发生在大多数时间但不是每次都发生)?它是一个jupyter笔记本或熊猫bug?此外,我认为它可能与RAM不足,但我在具有> 100 GB RAM的Microsoft Azure机器学习笔记本上得到相同的错误.在Azure ML上,内核每次都会死掉 - 几乎立刻就会死掉.

python pandas ipython-notebook azure-machine-learning-studio

5
推荐指数
1
解决办法
3710
查看次数

在Azure ML中安装Python程序包?

这里类似的问题,但现在在Python软件包上。当前,Azure ML中缺少CVXPY。我还试图让其他求解器(例如GLPK,CLP和COINMP)在Azure ML中工作。

如何在Azure ML中安装Python包?


有关尝试安装Azure ML中找不到的Python软件包的更新。

我按照Peter Pan的指示进行了操作,但是我认为Azure ML中的Anaconda 4和Python 3.5的32位CVXPY文件是错误的,日志和错误在此处

[Information]         Running with Python 3.5.1 |Anaconda 4.0.0 (64-bit)| (default, Feb 16 2016, 09:49:46) [MSC v.1900 64 bit (AMD64)]
Run Code Online (Sandbox Code Playgroud)

在此处输入图片说明

在此处输入图片说明

在此处输入图片说明

使用win_amd64文件更新2(在此处粘贴)

[Information]         Extracting Script Bundle.zip to .\Script Bundle
[Information]         File Name                                             Modified             Size
[Information]         cvxopt-1.1.9-cp35-cp35m-win_amd64.whl          2017-06-07 01:03:34      1972074
[Information]         __MACOSX/                                      2017-06-07 01:26:28            0
[Information]         __MACOSX/._cvxopt-1.1.9-cp35-cp35m-win_amd64.whl 2017-06-07 01:03:34          452
[Information]         cvxpy-0.4.10-py3-none-any.whl                  2017-06-07 00:25:36       300880
[Information]         __MACOSX/._cvxpy-0.4.10-py3-none-any.whl       2017-06-07 00:25:36          444
[Information]         ecos-2.0.4-cp35-cp35m-win_amd64.whl            2017-06-07 01:03:40        56522
[Information] …
Run Code Online (Sandbox Code Playgroud)

python azure azure-machine-learning-studio cvxpy

5
推荐指数
1
解决办法
5326
查看次数