我有一些大的csv(制表符分隔)数据存储为azure blob,我想从这些创建一个pandas数据帧.我可以在本地做到如下:
from azure.storage.blob import BlobService
import pandas as pd
import os.path
STORAGEACCOUNTNAME= 'account_name'
STORAGEACCOUNTKEY= "key"
LOCALFILENAME= 'path/to.csv'
CONTAINERNAME= 'container_name'
BLOBNAME= 'bloby_data/000000_0'
blob_service = BlobService(account_name=STORAGEACCOUNTNAME, account_key=STORAGEACCOUNTKEY)
# Only get a local copy if haven't already got it
if not os.path.isfile(LOCALFILENAME):
blob_service.get_blob_to_path(CONTAINERNAME,BLOBNAME,LOCALFILENAME)
df_customer = pd.read_csv(LOCALFILENAME, sep='\t')
Run Code Online (Sandbox Code Playgroud)
但是,当在azure ML笔记本上运行笔记本时,我无法"保存本地副本"然后从csv读取,所以我想直接进行转换(类似于pd.read_azure_blob(blob_csv)或只是pd .read_csv(blob_csv)将是理想的).
我可以获得所需的最终结果(blob csv数据的pandas数据帧),如果我首先创建一个azure ML工作区,然后将数据集读入其中,最后使用https://github.com/Azure/Azure-MachineLearning -ClientLibrary-Python以数据集的形式访问数据集,但我更喜欢直接从blob存储位置读取数据集.
python azure azure-storage-blobs pandas azure-machine-learning-studio
我在Azure机器学习中的Execute R模块中操作的所有这些日期在输出中写为空白 - 也就是说,这些日期列存在,但这些列中没有值.
包含我正在读入数据框的日期信息的源变量有两种不同的日期格式.它们如下:
usage$Date1=c(‘8/6/2015’ ‘8/20/2015’ ‘7/9/2015’)
usage$Date2=c(‘4/16/2015 0:00’, ‘7/1/2015 0:00’, ‘7/1/2015 0:00’)
Run Code Online (Sandbox Code Playgroud)
我在AML中检查了日志文件,而AML找不到本地时区.日志文件警告具体:[ModuleOutput] 1:在strptime(x,format,tz = tz):[ModuleOutput]无法识别当前时区'C':[ModuleOutput]请设置环境变量'TZ'[ModuleOutput] [ModuleOutput ] 2:在strptime(x,format,tz = tz):未知时区'localtime'
我在这里提到了另一个关于为strptime设置默认时区的答案
我更改了代码以显式定义全局环境时间变量.
Sys.setenv(TZ='GMT')
####Data frame usage cleanup, format and labeling
usage<-as.data.frame(usage)
usage$Date1<-as.character(usage$Date1)
usage$Date1<-as.POSIXct(usage$Date1, "%m/%d/%Y",tz="GMT")
usage$Date1<-format(usage$Date1, "%m/%d/%Y")
usage$Date1<-as.Date(usage$Date1, "%m/%d/%Y")
usage<-as.data.frame(usage)
usage$Date2<- as.POSIXct(usage$Date2, "%m/%d/%Y",tz="GMT")
usage$Date2<- format(usage$Date2,"%m/%d/%Y")
usage$Date2<-as.Date(usage$Date2, "%m/%d/%Y")
usage<-as.data.frame(usage)
Run Code Online (Sandbox Code Playgroud)
问题仍然存在 - 因此AzureML不会将这些变量写出来,而是将这些列写为空白.
(此代码适用于R studio,我假设本地时间来自系统.)
在阅读关于此问题的两篇博客文章后,似乎Azure ML不支持某些日期时间格式:
http://www.mikelanzetta.com/2015/01/data-cleaning-with-azureml-and-r-dates/
所以我尝试在将它发送到输出流之前转换为POSIXct,我已经完成如下:tenantusage $ Date1 = as.POSIXct(tenantusage $ Date1,"%m /%d /%Y",tz ="EST5EDT "); tenantusage $ Date2 = as.POSIXct(tenantusage $ Date2,"%m …
我有很多学生根据他们的分数被一些大学选中的数据.我刚接触机器学习.我是否可以提供一些建议如何添加Azure机器学习以根据他们的分数预测他们可以获得的大学
我碰到这个问题,询问是否 Azure的ML可以计算出信心-或概率-用于行数据预测.但是,鉴于该问题的答案是No并建议使用R,我试图弄清楚如何使用R来完成回归模型.
有没有人有关于在哪里寻找此参考的建议?
我的方案是我使用Azure ML构建了一个提升决策树回归模型,该模型输出一Scored Label列.但我不知道回归分析是否足以编写R代码以使用输出的模型来获得置信区间.
我正在寻找任何可以帮助我理解如何在R中执行此操作的参考(与Azure ML相结合).
regression r machine-learning azure azure-machine-learning-studio
我正在尝试测试Azure Machine Learning Studio.
我想使用TensorFlow,但它没有安装在Jupyter笔记本上.
如何在笔记本上使用TensorFlow,Theano,Keras等机器学习库?
我试过这个:
!pip install tensorflow
Run Code Online (Sandbox Code Playgroud)
但是,我得到的错误如下:
Collecting tensorflow
Downloading tensorflow-0.12.0rc0-cp34-cp34m-manylinux1_x86_64.whl (43.1MB)
100% |################################| 43.1MB 27kB/s
Collecting protobuf==3.1.0 (from tensorflow)
Downloading protobuf-3.1.0-py2.py3-none-any.whl (339kB)
100% |################################| 348kB 3.7MB/s
Collecting six>=1.10.0 (from tensorflow)
Downloading six-1.10.0-py2.py3-none-any.whl
Requirement already satisfied: numpy>=1.11.0 in /home/nbcommon/anaconda3_23/lib/python3.4/site-packages (from tensorflow)
Requirement already satisfied: wheel>=0.26 in /home/nbcommon/anaconda3_23/lib/python3.4/site-packages (from tensorflow)
Requirement already satisfied: setuptools in /home/nbcommon/anaconda3_23/lib/python3.4/site-packages/setuptools-27.2.0-py3.4.egg (from protobuf==3.1.0->tensorflow)
Installing collected packages: six, protobuf, tensorflow
Found existing installation: six 1.9.0
DEPRECATION: Uninstalling a distutils installed project (six) has …Run Code Online (Sandbox Code Playgroud) theano azure-machine-learning-studio keras tensorflow jupyter-notebook
我在 azure ml studio 中创建了两个模型,我想下载这些模型。
是否可以从 azure ml studio 下载训练和评分模型?
我有一个我在Azure Machine Learning Studio中创建的ML实验列表.我已将它们部署为Web服务(新版本,而不是经典版本).
如何进入Azure机器学习Web服务,单击Web服务(从实验部署),然后导航回实验/预测模型,并将其提供给它?
我可以在两者之间找到的唯一链接是通过预测实验更新Web服务,然后确认Web服务是什么.我可以看到,在实验和Web服务中,"ExperimentId"是URL中的GUID,所以希望这是可能的.
我的理由是依靠匹配的命名约定等来选择适当的模型进行更新会受到人为错误的影响.
我正在尝试使用Azure ML中的"执行python脚本"模块创建一个" 读取器 "替代方法来从Azure SQL数据库中读取数据.在这样做时,我正在尝试使用pyodbc库连接到Azure Sql.这是我的代码:
def azureml_main(dataframe1 = None, dataframe2 = None):
import pyodbc
import pandas as pd
conn = pyodbc.connect('DRIVER={SQL Server}; SERVER=server.database.windows.net; DATABASE=db_name; UID=user; PWD=Password')
SQLCommand = ('''select * from table1 ''')
data_frame = pd.read_sql(SQLCommand, conn)
return data_frame,
Run Code Online (Sandbox Code Playgroud)
还试图使用不同的驱动程序名称:{SQL Server Native Client 11.0}
这是我得到的错误:
Error: ('IM002', '[IM002] [Microsoft][ODBC Driver Manager] Data source name not found and no default driver specified (0) (SQLDriverConnect)')
Run Code Online (Sandbox Code Playgroud)
有谁知道我应该使用哪个驱动程序?
只是为了确保,我尝试了"{SQL Server}","{SQL Server Native Client 11.0}"和"{SQL Server Native Client 10.0}"并得到了同样的错误
我也尝试了不同的格式:
conn = …Run Code Online (Sandbox Code Playgroud) python pyodbc azure-machine-learning-studio azure-sql-database cortana-intelligence
我正在参加Walmart Kaggle比赛,我正在尝试创建一个"FinelineNumber"栏目的虚拟列.对于上下文,df.shape返回(647054, 7).我正在尝试制作一个虚拟列df['FinelineNumber'],它有5,196个唯一值.结果应该是形状的数据框(647054, 5196),然后我计划到concat原始数据框.
几乎每次我运行时fineline_dummies = pd.get_dummies(df['FinelineNumber'], prefix='fl'),我得到以下错误消息The kernel appears to have died. It will restart automatically.我在具有16GB RAM的MacBookPro上的jupyter笔记本中运行python 2.7.
有人可以解释为什么会发生这种情况(以及为什么它发生在大多数时间但不是每次都发生)?它是一个jupyter笔记本或熊猫bug?此外,我认为它可能与RAM不足,但我在具有> 100 GB RAM的Microsoft Azure机器学习笔记本上得到相同的错误.在Azure ML上,内核每次都会死掉 - 几乎立刻就会死掉.
python pandas ipython-notebook azure-machine-learning-studio
与这里类似的问题,但现在在Python软件包上。当前,Azure ML中缺少CVXPY。我还试图让其他求解器(例如GLPK,CLP和COINMP)在Azure ML中工作。
如何在Azure ML中安装Python包?
有关尝试安装Azure ML中找不到的Python软件包的更新。
我按照Peter Pan的指示进行了操作,但是我认为Azure ML中的Anaconda 4和Python 3.5的32位CVXPY文件是错误的,日志和错误在此处。
Run Code Online (Sandbox Code Playgroud)[Information] Running with Python 3.5.1 |Anaconda 4.0.0 (64-bit)| (default, Feb 16 2016, 09:49:46) [MSC v.1900 64 bit (AMD64)]
使用win_amd64文件更新2(在此处粘贴)
Run Code Online (Sandbox Code Playgroud)[Information] Extracting Script Bundle.zip to .\Script Bundle [Information] File Name Modified Size [Information] cvxopt-1.1.9-cp35-cp35m-win_amd64.whl 2017-06-07 01:03:34 1972074 [Information] __MACOSX/ 2017-06-07 01:26:28 0 [Information] __MACOSX/._cvxopt-1.1.9-cp35-cp35m-win_amd64.whl 2017-06-07 01:03:34 452 [Information] cvxpy-0.4.10-py3-none-any.whl 2017-06-07 00:25:36 300880 [Information] __MACOSX/._cvxpy-0.4.10-py3-none-any.whl 2017-06-07 00:25:36 444 [Information] ecos-2.0.4-cp35-cp35m-win_amd64.whl 2017-06-07 01:03:40 56522 [Information] …
azure-machine-learning-studio ×10
azure ×5
python ×4
pandas ×2
r ×2
cvxpy ×1
datetime ×1
keras ×1
pyodbc ×1
regression ×1
tensorflow ×1
theano ×1
web-services ×1