标签: training-data

OpenNLP NameFinder 训练，“发现意外的注释”

在训练我的 NameFinderME 时，我收到以下错误消息：

我的数据如下所示： <START someTag> some text <END>

Computing event counts... java.io.IOException: Found unexpected annotation:

在 Google 为这条错误消息找到的所有其他内容中，它始终是训练数据间距中的一个简单错误（例如，更改<START:entity>some text<END>为 <START:entity> some text <END>。这不适用于我（所有间距都正确）。都是 UTF-16，并在我设置对象进行培训时指定为这样。有什么想法可能是错误的？

谢谢，

海象猫

named-entity-recognition training-data opennlp

Wal*_*Cat

2013 11-22

2
推荐指数

1
解决办法

588
查看次数

opencv createsamples 没有错误，但是没有找到样本

我正在使用本教程，并且正在从我的正面图像创建大量样本。我正在使用 Windows。

这是命令：

perl bin/createsamples.pl positives.txt negatives.txt samples 1500\  "C:\opencv_built\bin\Release\opencv_createsamples.exe -bgcolor 0 -bgthresh 0 -maxxangle 1.1\   -maxyangle 1.1 maxzangle 0.5 -maxidev 40 -w 80 -h 40"

Run Code Online (Sandbox Code Playgroud)

对于每个正面图像，这就是我得到的输出：

C:\opencv_built\bin\Release\opencv_createsamples.exe -bgcolor 0 -bgthresh 0 -max
xangle 1.1\   -maxyangle 1.1 maxzangle 0.5 -maxidev 40 -w 80 -h 40 -img 60inclin
ation_315azimuth.jpg -bg tmp -vec samples0inclination_315azimuth.jpg.vec -num 62

Info file name: (NULL)
Img file name: 60inclination_315azimuth.jpg
Vec file name: samples0inclination_315azimuth.jpg.vec
BG  file name: tmp
Num: 62
BG color: 0
BG threshold: 0 …

Run Code Online (Sandbox Code Playgroud)

opencv image-processing computer-vision training-data sample-data

use*_*627

2014 03-19

2
推荐指数

1
解决办法

7716
查看次数

什么是图像处理中的训练和测试？

我正在一些 RGB 图像上实现基于k 均值聚类方法的颜色量化。然后，我将确定算法的性能。我找到了一些关于训练和测试的信息。据我了解，我应该划分图像样本进行训练和测试。

但我对培训和测试这两个术语感到困惑。这些是什么意思？以及如何使用排名值来实现？

evaluation classification image-processing k-means training-data

Uyg*_*gar

2016 01-03

2
推荐指数

1
解决办法

5888
查看次数

kitti 数据集中的训练标签

我想知道 kitti 训练标签中每个对象的 14 个值是多少。当我在 matlab 中标记对象时，我为每个对象即（x、y、宽度、高度）得到 4 个值。

两者有什么区别？

python matlab computer-vision training-data point-clouds

pmd*_*dav

lucky-day

2
推荐指数

1
解决办法

5284
查看次数

如何在 TensorFlow 1.13 中检查 TFRecord 文件的结构？

我对 TFRecord 文件格式以及如何使用它感到困惑。我有一个 TFRecord，但不知道它究竟包含什么以及它的结构是什么。如何打印和检查 TFRecord 和/或其 TFExamples？我基本上问了与这个问题相同的问题，但是那个答案已经过时了。打印output_shapes,output_types或output_classesmyTFRecord告诉我什么都没有（为什么？）。该tf.io.tf_record_iterator()函数已被弃用，但 TFRecord 数据集现在看起来自己是可迭代的（但为什么仍然需要其他迭代器？）。然而，简单地打印每次迭代会返回乱码，并tf.train.Example.FromString(example)抛出一个TypeError: a bytes-like object is required, not 'tensorflow.python.framework.ops.EagerTensor'. 这一切都比较混乱。简单地初始化一个tf.data.Datasetusingfrom_tensor_slices() 看起来更容易检查，实际上提供了有关其形状和类型的信息。

python training-data tensorflow tfrecord

Emi*_*oss

lucky-day

2
推荐指数

1
解决办法

2521
查看次数

从 Tensorflow 数据集中分割数据时出现问题

我正在尝试从Oxford Flowers 102 数据集中下载数据，并使用 tfds API 将其分成训练集、验证集和测试集。这是我的代码：

# Split numbers 
train_split = 60
test_val_split = 20

splits = tfds.Split.ALL.subsplit([train_split,test_val_split, test_val_split])

# TODO: Create a training set, a validation set and a test set.
(training_set, validation_set, test_set), dataset_info = tfds.load('oxford_flowers102', split=splits, as_supervised=True, with_info=True)

Run Code Online (Sandbox Code Playgroud)

问题是，当我打印出来时，dataset_info我得到了以下测试集、训练集和验证集的数字

total_num_examples=8189,
splits={
    'test': 6149,
    'train': 1020,
    'validation': 1020,
},

Run Code Online (Sandbox Code Playgroud)

问题：如何将数据拆分为训练集中的 6149 个数据以及测试和验证集中的 1020 个数据？

python training-data tensorflow

Drk*_*Str

2020 03-13

2
推荐指数

1
解决办法

1469
查看次数

未从混洗数据集中选择 Keras ImageDataGenerator 验证拆分

How can I randomly split my image dataset into training and validation datesets? More specifically, the validation_split argument in Keras ImageDataGenerator function is not randomly splitting my images into training and validation but is slicing the validation sample from an unshuffled dataset.

python validation training-data keras tensorflow

lju*_*ten

lucky-day

2
推荐指数

1
解决办法

1188
查看次数

是否有任何技术可以提前知道深度学习所需的培训示例数量是否达到了良好的性能？

深度学习最近是一场革命,它的成功与我们目前可以管理的大量数据和GPU的概括有关.

所以这就是我面临的问题.我知道深层神经网络具有最佳性能,毫无疑问.但是,当训练样本的数量巨大时,它们具有良好的性能.如果训练样本的数量较少,则最好使用SVM或决策树.

但是什么是巨大的？什么是低？在本文的人脸识别(FaceNet by Google)中,他们展示了性能与失败的关系(可以与训练样例的数量相关)

他们使用了100M到200M的训练样例,这是非常大的.

我的问题是:有没有任何方法可以提前预测我需要在深度学习中取得良好表现的训练样例数量？我之所以这样说是因为如果性能不好,手动分类数据集是浪费时间的.

machine-learning training-data neural-network deep-learning conv-neural-network

hoa*_*oid

2015 12-25

1
推荐指数

1
解决办法

285
查看次数

Caffe:火车网络精度= 1不变!准确性问题

现在,我是带有2类数据的火车网络...但是在第一次迭代后精度是恒定的1!

输入数据是灰度图像.当HDF5Data创建时,两个类图像都是随机选择的.

为什么会这样？怎么了,错在哪里!

network.prototxt:

name: "brainMRI"
layer {
  name: "data"
  type: "HDF5Data"
  top: "data"
  top: "label"
  include: {
    phase: TRAIN
  }
  hdf5_data_param {
    source: "/home/shivangpatel/caffe/brainMRI1/train_file_location.txt"
    batch_size: 10
  }
}
layer {
  name: "data"
  type: "HDF5Data"
  top: "data"
  top: "label"
  include: {
    phase: TEST
  }
  hdf5_data_param {
    source: "/home/shivangpatel/caffe/brainMRI1/test_file_location.txt"
    batch_size: 10
  }
}

layer {
  name: "conv1"
  type: "Convolution"
  bottom: "data"
  top: "conv1"
  param {
    lr_mult: 1
  }
  param {
    lr_mult: 2
  }
  convolution_param {
    num_output: 20
    kernel_size: 5
    stride: 1 …

Run Code Online (Sandbox Code Playgroud)

machine-learning training-data neural-network deep-learning caffe

shi*_*tel

2017 05-23

1
推荐指数

1
解决办法

3333
查看次数

我可以多次训练我的分类器吗？

我正在使用nltk和构建一个基本的NLP程序sklearn.我在数据库中有一个大型数据集,我想知道训练分类器的最佳方法是什么.

是否可以以块的形式下载训练数据并将每个块传递给分类器？这是可能的,还是我会覆盖从前一块中学到的东西？

from nltk.classify.scikitlearn import SklearnClassifier
from sklearn.naive_bayes import MultinomialNB

while True:
    training_set, proceed = download_chunk()  # pseudo
    trained = SklearnClassifier(MultinomialNB()).train(training_set)
    if not proceed:
        break

Run Code Online (Sandbox Code Playgroud)

这通常是怎么做的？我想避免长时间保持数据库连接打开.

python nlp nltk training-data scikit-learn

tur*_*nip

lucky-day

1
推荐指数

1
解决办法

504
查看次数