我在我的数据科学硕士中看到很多人使用jupyter笔记本进行编程,即使是复杂而长的算法也是在jupyter笔记本中编写的......
即使在我的大师之外,我也看到人们在 Jupyter 中编码。为什么?这是一个真正的问题,我知道当你想写报告或其他东西时,jupyter 可能会很好,但是当你想构建复杂的应用程序或此类东西时,它看起来不像是一个好工具......
我正在使用 CNN 进行图像分类;我用 keras ImageDataGenerator 做数据增强
我想我错过了一些东西。
A /// train =model.fit_generator(image_gen.flow(train_X, train_label, batch_size=64),epochs=100,verbose=1,validation_data=(valid_X, valid_label),class_weight=class_weights,callbacks=[metrics],steps_per_epoch=len(train_X)/64) # 1 epoch =20 secondes
B /// train =model.fit_generator(image_gen.flow(train_X, train_label, batch_size=15),epochs=100,verbose=1,validation_data=(valid_X, valid_label),class_weight=class_weights,callbacks=[metrics],steps_per_epoch=len(train_X)/15) # 1 epoch = 60 secondes
C /// train =model.fit_generator(image_gen.flow(train_X, train_label, batch_size=256),epochs=100,verbose=1,validation_data=(valid_X, valid_label),class_weight=class_weights,callbacks=[metrics],steps_per_epoch=len(train_X)/256) # 1 epoch =345secondes
Run Code Online (Sandbox Code Playgroud)
在 AI 使用 64 的批量大小的情况下,我需要每个 epoch 20 秒。批量大小为 15 的情况 B 我需要每个 epoch 60 秒。批量大小为 256 的情况 C 每个 epoch 需要 345 秒。
我的理解:
-批量大小 =用于权重更新的图像数量。如果我有 100 张图像,批量大小为 10,则权重将在每个时期更新 10 次。我对吗?
Steps_per_epoch是 …
我使用 CNN 对不平衡数据集进行图像分类。我对 tensorflow 后端完全陌生。这是多类问题(不是多标签),我有 16 个类。类是一种热编码。
我想计算每个时期的 MACRO 指标:F1、精度和召回率。
我找到了一个代码来打印这些宏指标,但它只适用于验证集来自:https : //medium.com/@thongonary/how-to-compute-f1-score-for-each-epoch-in-keras-a1acd17715a2
class Metrics(Callback):
def on_train_begin(self, logs={}):
self.val_f1s = []
self.val_recalls = []
self.val_precisions = []
def on_epoch_end(self, epoch, logs={}):
val_predict = (np.asarray(self.model.predict(self.validation_data[0]))).round()
val_targ = self.validation_data[1]
_val_f1 = f1_score(val_targ, val_predict,average='macro')
_val_recall = recall_score(val_targ, val_predict,average='macro')
_val_precision = precision_score(val_targ, val_predict,average='macro')
self.val_f1s.append(_val_f1)
self.val_recalls.append(_val_recall)
self.val_precisions.append(_val_precision)
print (" — val_f1: %f — val_precision: %f — val_recall %f" % (_val_f1, _val_precision, _val_recall))
return
metrics = Metrics()
Run Code Online (Sandbox Code Playgroud)
我什至不确定这段代码是否真的有效,因为我们使用
val_predict = (np.asarray(self.model.predict(self.validation_data[0]))).round()
Run Code Online (Sandbox Code Playgroud)
在多类分类的情况下,ROUND 会导致错误吗?
我使用此代码在训练集上打印指标(仅回忆起对我来说重要的指标)(也计算验证集,因为它在 model.compute …
我在 Rstudio 版本 0.98.507.0 和 R 3.1.1 中工作。我在虚拟机中工作,我无法在计算机中安装任何东西(专业计算机,新安装需要很长时间才能获得授权)
我正在寻找安装包“ plotly ”,但这个包需要“ dplyr ”才能工作;“ dplyr ”的当前版本仅适用于 R 版本 3.1.2
同样,我正在尝试安装旧版本的“dplyr,但没有任何效果。我从 cran 下载了文件。我将文件放在目录中,这是我尝试过的代码和我得到的错误消息:
1)
install.packages("J:/ PATH TO THE FILE/dplyr_0.7.0.tar.gz",repos = NULL, type="source")
Run Code Online (Sandbox Code Playgroud)
错误是:
Warning: invalid package 'J:/ PATH/dplyr_0.7.0.tar.gz'
Error: ERROR: no packages specified
Warning in install.packages :
running command '"Q:/R.001/R-31~1.1/bin/i386/R" CMD INSTALL -l "C:\Users\I0368711\Documents\R\win-library\3.1" "J:/PATH/R/dplyr_0.7.0.tar.gz"' had status 1
Warning in install.packages :
installation of package ‘J:/PATH/dplyr_0.7.0.tar.gz’ had non-zero exit status
Run Code Online (Sandbox Code Playgroud)
2)然后我尝试设置工作目录,然后运行
install.packages("dplyr_0.7.0.tar.gz",repos = NULL, type="source")
Run Code Online (Sandbox Code Playgroud)
错误信息是
CMD.EXE was started with the …Run Code Online (Sandbox Code Playgroud) 寻找一种使用 Azure 文件 SDK 将文件上传到我的 azure databricks blob 存储的方法
我使用此页面中的功能尝试了很多事情
但没有任何效果。我不明白为什么
例子:
file_service = FileService(account_name='MYSECRETNAME', account_key='mySECRETkey')
generator = file_service.list_directories_and_files('MYSECRETNAME/test') #listing file in folder /test, working well
for file_or_dir in generator:
print(file_or_dir.name)
file_service.get_file_to_path('MYSECRETNAME','test/tables/input/referentials/','test.xlsx','/dbfs/FileStore/test6.xlsx')
Run Code Online (Sandbox Code Playgroud)
其中 test.xlsx = 我的 azure 文件中的文件名
/dbfs/FileStore/test6.xlsx => 在我的 dbfs 系统中上传文件的路径
我有错误消息:
异常=指定的资源名称包含无效字符
尝试更改名称但似乎不起作用
编辑:我什至不确定该功能是否正在执行我想要的操作。从天蓝色文件加载文件的最佳方法是什么?