在训练我的 NameFinderME 时,我收到以下错误消息:
我的数据如下所示:
<START someTag> some text <END>
Computing event counts... java.io.IOException: Found unexpected annotation:
在 Google 为这条错误消息找到的所有其他内容中,它始终是训练数据间距中的一个简单错误(例如,更改<START:entity>some text<END>为 <START:entity> some text <END>。这不适用于我(所有间距都正确)。都是 UTF-16,并在我设置对象进行培训时指定为这样。有什么想法可能是错误的?
谢谢,
海象猫
我正在使用本教程,并且正在从我的正面图像创建大量样本。我正在使用 Windows。
这是命令:
perl bin/createsamples.pl positives.txt negatives.txt samples 1500\ "C:\opencv_built\bin\Release\opencv_createsamples.exe -bgcolor 0 -bgthresh 0 -maxxangle 1.1\ -maxyangle 1.1 maxzangle 0.5 -maxidev 40 -w 80 -h 40"
Run Code Online (Sandbox Code Playgroud)
对于每个正面图像,这就是我得到的输出:
C:\opencv_built\bin\Release\opencv_createsamples.exe -bgcolor 0 -bgthresh 0 -max
xangle 1.1\ -maxyangle 1.1 maxzangle 0.5 -maxidev 40 -w 80 -h 40 -img 60inclin
ation_315azimuth.jpg -bg tmp -vec samples0inclination_315azimuth.jpg.vec -num 62
Info file name: (NULL)
Img file name: 60inclination_315azimuth.jpg
Vec file name: samples0inclination_315azimuth.jpg.vec
BG file name: tmp
Num: 62
BG color: 0
BG threshold: 0 …Run Code Online (Sandbox Code Playgroud) opencv image-processing computer-vision training-data sample-data
我正在一些 RGB 图像上实现基于k 均值聚类方法的颜色量化。然后,我将确定算法的性能。我找到了一些关于训练和测试的信息。据我了解,我应该划分图像样本进行训练和测试。
但我对培训和测试这两个术语感到困惑。这些是什么意思?以及如何使用排名值来实现?
evaluation classification image-processing k-means training-data
我想知道 kitti 训练标签中每个对象的 14 个值是多少。当我在 matlab 中标记对象时,我为每个对象即(x、y、宽度、高度)得到 4 个值。
两者有什么区别?
我对 TFRecord 文件格式以及如何使用它感到困惑。我有一个 TFRecord,但不知道它究竟包含什么以及它的结构是什么。如何打印和检查 TFRecord 和/或其 TFExamples?我基本上问了与这个问题相同的问题,但是那个答案已经过时了。打印output_shapes,output_types或output_classesmyTFRecord告诉我什么都没有(为什么?)。该tf.io.tf_record_iterator()函数已被弃用,但 TFRecord 数据集现在看起来自己是可迭代的(但为什么仍然需要其他迭代器?)。然而,简单地打印每次迭代会返回乱码,并tf.train.Example.FromString(example)抛出一个TypeError: a bytes-like object is required, not 'tensorflow.python.framework.ops.EagerTensor'. 这一切都比较混乱。简单地初始化一个tf.data.Datasetusingfrom_tensor_slices() 看起来更容易检查,实际上提供了有关其形状和类型的信息。
我正在尝试从Oxford Flowers 102 数据集中下载数据,并使用 tfds API 将其分成训练集、验证集和测试集。这是我的代码:
# Split numbers
train_split = 60
test_val_split = 20
splits = tfds.Split.ALL.subsplit([train_split,test_val_split, test_val_split])
# TODO: Create a training set, a validation set and a test set.
(training_set, validation_set, test_set), dataset_info = tfds.load('oxford_flowers102', split=splits, as_supervised=True, with_info=True)
Run Code Online (Sandbox Code Playgroud)
问题是,当我打印出来时,dataset_info我得到了以下测试集、训练集和验证集的数字
total_num_examples=8189,
splits={
'test': 6149,
'train': 1020,
'validation': 1020,
},
Run Code Online (Sandbox Code Playgroud)
问题:如何将数据拆分为训练集中的 6149 个数据以及测试和验证集中的 1020 个数据?
How can I randomly split my image dataset into training and validation datesets? More specifically, the validation_split argument in Keras ImageDataGenerator function is not randomly splitting my images into training and validation but is slicing the validation sample from an unshuffled dataset.
深度学习最近是一场革命,它的成功与我们目前可以管理的大量数据和GPU的概括有关.
所以这就是我面临的问题.我知道深层神经网络具有最佳性能,毫无疑问.但是,当训练样本的数量巨大时,它们具有良好的性能.如果训练样本的数量较少,则最好使用SVM或决策树.
但是什么是巨大的?什么是低?在本文的人脸识别(FaceNet by Google)中,他们展示了性能与失败的关系(可以与训练样例的数量相关)
他们使用了100M到200M的训练样例,这是非常大的.
我的问题是:有没有任何方法可以提前预测我需要在深度学习中取得良好表现的训练样例数量?我之所以这样说是因为如果性能不好,手动分类数据集是浪费时间的.
machine-learning training-data neural-network deep-learning conv-neural-network
现在,我是带有2类数据的火车网络...但是在第一次迭代后精度是恒定的1!
输入数据是灰度图像.当HDF5Data创建时,两个类图像都是随机选择的.
为什么会这样?怎么了,错在哪里!
network.prototxt:
name: "brainMRI"
layer {
name: "data"
type: "HDF5Data"
top: "data"
top: "label"
include: {
phase: TRAIN
}
hdf5_data_param {
source: "/home/shivangpatel/caffe/brainMRI1/train_file_location.txt"
batch_size: 10
}
}
layer {
name: "data"
type: "HDF5Data"
top: "data"
top: "label"
include: {
phase: TEST
}
hdf5_data_param {
source: "/home/shivangpatel/caffe/brainMRI1/test_file_location.txt"
batch_size: 10
}
}
layer {
name: "conv1"
type: "Convolution"
bottom: "data"
top: "conv1"
param {
lr_mult: 1
}
param {
lr_mult: 2
}
convolution_param {
num_output: 20
kernel_size: 5
stride: 1 …Run Code Online (Sandbox Code Playgroud) machine-learning training-data neural-network deep-learning caffe
我正在使用nltk和构建一个基本的NLP程序sklearn.我在数据库中有一个大型数据集,我想知道训练分类器的最佳方法是什么.
是否可以以块的形式下载训练数据并将每个块传递给分类器?这是可能的,还是我会覆盖从前一块中学到的东西?
from nltk.classify.scikitlearn import SklearnClassifier
from sklearn.naive_bayes import MultinomialNB
while True:
training_set, proceed = download_chunk() # pseudo
trained = SklearnClassifier(MultinomialNB()).train(training_set)
if not proceed:
break
Run Code Online (Sandbox Code Playgroud)
这通常是怎么做的?我想避免长时间保持数据库连接打开.
training-data ×10
python ×5
tensorflow ×3
caffe ×1
evaluation ×1
k-means ×1
keras ×1
matlab ×1
nlp ×1
nltk ×1
opencv ×1
opennlp ×1
point-clouds ×1
sample-data ×1
scikit-learn ×1
tfrecord ×1
validation ×1