小编akh*_*tos的帖子

为什么人们更喜欢 Jupyter Notebook 而不是 VS Code/Spyder 等 IDE?

我在我的数据科学硕士中看到很多人使用jupyter笔记本进行编程,即使是复杂而长的算法也是在jupyter笔记本中编写的......

即使在我的大师之外,我也看到人们在 Jupyter 中编码。为什么?这是一个真正的问题,我知道当你想写报告或其他东西时,jupyter 可能会很好,但是当你想构建复杂的应用程序或此类东西时,它看起来不像是一个好工具......

python jupyter-notebook

6
推荐指数
2
解决办法
8708
查看次数

更大的批量减少训练时间

我正在使用 CNN 进行图像分类;我用 keras ImageDataGenerator 做数据增强

我想我错过了一些东西。

A ///  train =model.fit_generator(image_gen.flow(train_X, train_label, batch_size=64),epochs=100,verbose=1,validation_data=(valid_X, valid_label),class_weight=class_weights,callbacks=[metrics],steps_per_epoch=len(train_X)/64)  # 1 epoch =20 secondes

B /// train =model.fit_generator(image_gen.flow(train_X, train_label, batch_size=15),epochs=100,verbose=1,validation_data=(valid_X, valid_label),class_weight=class_weights,callbacks=[metrics],steps_per_epoch=len(train_X)/15)  # 1 epoch = 60 secondes

C /// train =model.fit_generator(image_gen.flow(train_X, train_label, batch_size=256),epochs=100,verbose=1,validation_data=(valid_X, valid_label),class_weight=class_weights,callbacks=[metrics],steps_per_epoch=len(train_X)/256)   # 1 epoch =345secondes



Run Code Online (Sandbox Code Playgroud)

在 AI 使用 64 的批量大小的情况下,我需要每个 epoch 20 秒。批量大小为 15 的情况 B 我需要每个 epoch 60 秒。批量大小为 256 的情况 C 每个 epoch 需要 345 秒。

我的理解:

-批量大小 =用于权重更新的图像数量。如果我有 100 张图像,批量大小为 10,则权重将在每个时期更新 10 次。我对吗?

Steps_per_epoch是 …

python machine-learning conv-neural-network keras

5
推荐指数
1
解决办法
501
查看次数

多类 CNN 的宏观指标(召回/F1...)

我使用 CNN 对不平衡数据集进行图像分类。我对 tensorflow 后端完全陌生。这是多类问题(不是多标签),我有 16 个类。类是一种热编码。

我想计算每个时期的 MACRO 指标:F1、精度和召回率。

我找到了一个代码来打印这些宏指标,但它只适用于验证集来自:https : //medium.com/@thongonary/how-to-compute-f1-score-for-each-epoch-in-keras-a1acd17715a2

class Metrics(Callback):

 def on_train_begin(self, logs={}):
  self.val_f1s = []
  self.val_recalls = []
  self.val_precisions = []

 def on_epoch_end(self, epoch, logs={}):
  val_predict = (np.asarray(self.model.predict(self.validation_data[0]))).round()
  val_targ = self.validation_data[1]
  _val_f1 = f1_score(val_targ, val_predict,average='macro')
  _val_recall = recall_score(val_targ, val_predict,average='macro')
  _val_precision = precision_score(val_targ, val_predict,average='macro')
  self.val_f1s.append(_val_f1)
  self.val_recalls.append(_val_recall)
  self.val_precisions.append(_val_precision)
  print (" — val_f1: %f — val_precision: %f — val_recall %f" % (_val_f1, _val_precision, _val_recall))
  return

metrics = Metrics()
Run Code Online (Sandbox Code Playgroud)

我什至不确定这段代码是否真的有效,因为我们使用

 val_predict = (np.asarray(self.model.predict(self.validation_data[0]))).round()
Run Code Online (Sandbox Code Playgroud)

在多类分类的情况下,ROUND 会导致错误吗?

我使用此代码在训练集上打印指标(仅回忆起对我来说重要的指标)(也计算验证集,因为它在 model.compute …

python machine-learning keras tensorflow

5
推荐指数
1
解决办法
1659
查看次数

安装旧包 R

我在 Rstudio 版本 0.98.507.0 和 R 3.1.1 中工作。我在虚拟机中工作,我无法在计算机中安装任何东西(专业计算机,新安装需要很长时间才能获得授权)

我正在寻找安装包“ plotly ”,但这个包需要“ dplyr ”才能工作;“ dplyr ”的当前版本仅适用于 R 版本 3.1.2

同样,我正在尝试安装旧版本的“dplyr,但没有任何效果。我从 cran 下载了文件。我将文件放在目录中,这是我尝试过的代码和我得到的错误消息:

1)

install.packages("J:/ PATH TO THE FILE/dplyr_0.7.0.tar.gz",repos = NULL, type="source") 
Run Code Online (Sandbox Code Playgroud)

错误是:

   Warning: invalid package 'J:/ PATH/dplyr_0.7.0.tar.gz'
 Error: ERROR: no packages specified
 Warning in install.packages :
 running command '"Q:/R.001/R-31~1.1/bin/i386/R" CMD INSTALL -l "C:\Users\I0368711\Documents\R\win-library\3.1" "J:/PATH/R/dplyr_0.7.0.tar.gz"' had status 1
 Warning in install.packages :
 installation of package ‘J:/PATH/dplyr_0.7.0.tar.gz’ had non-zero exit status 
Run Code Online (Sandbox Code Playgroud)

2)然后我尝试设置工作目录,然后运行

install.packages("dplyr_0.7.0.tar.gz",repos = NULL, type="source")
Run Code Online (Sandbox Code Playgroud)

错误信息是

CMD.EXE was started with the …
Run Code Online (Sandbox Code Playgroud)

packages r dplyr

1
推荐指数
1
解决办法
3512
查看次数

将文件从 Azure 文件加载到 Azure Databricks

寻找一种使用 Azure 文件 SDK 将文件上传到我的 azure databricks blob 存储的方法

我使用此页面中的功能尝试了很多事情

但没有任何效果。我不明白为什么

例子:

file_service = FileService(account_name='MYSECRETNAME', account_key='mySECRETkey')

generator = file_service.list_directories_and_files('MYSECRETNAME/test') #listing file in folder /test, working well
for file_or_dir in generator:
    print(file_or_dir.name)

file_service.get_file_to_path('MYSECRETNAME','test/tables/input/referentials/','test.xlsx','/dbfs/FileStore/test6.xlsx')
Run Code Online (Sandbox Code Playgroud)

其中 test.xlsx = 我的 azure 文件中的文件名

/dbfs/FileStore/test6.xlsx => 在我的 dbfs 系统中上传文件的路径

我有错误消息:

异常=指定的资源名称包含无效字符

尝试更改名称但似乎不起作用

编辑:我什至不确定该功能是否正在执行我想要的操作。从天蓝色文件加载文件的最佳方法是什么?

python azure azure-storage azure-files azure-databricks

1
推荐指数
1
解决办法
5352
查看次数