小编sau*_*sau的帖子

训练深度神经网络时,准确性突然下降

我正在使用mxnet来训练一个11级的图像分类器.我观察到一种奇怪的行为训练准确性正在缓慢增加并且上升到39%,并且在下一个时期它下降到9%然后在其余的训练中保持接近9%.我用保存的模型重新开始训练(训练精度为39%),保持所有其他参数相同.现在训练准确性再次提高.这可能是什么原因?我无法理解它.而且通过这种方式训练模型变得越来越困难,因为它需要我不断地看到训练精度值.

学习率恒定为0.01

neural-network deep-learning mxnet

11
推荐指数
2
解决办法
9910
查看次数

如何分析 pyspark 工作

我想了解 pyspark 代码中的分析。

在此之后:https : //github.com/apache/spark/pull/2351

>>> sc._conf.set("spark.python.profile", "true")
>>> rdd = sc.parallelize(range(100)).map(str)
>>> rdd.count()
100
>>> sc.show_profiles()
============================================================
Profile of RDD<id=1>
============================================================
         284 function calls (276 primitive calls) in 0.001 seconds

   Ordered by: internal time, cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        4    0.000    0.000    0.000    0.000 serializers.py:198(load_stream)
        4    0.000    0.000    0.000    0.000 {reduce}
     12/4    0.000    0.000    0.001    0.000 rdd.py:2092(pipeline_func)
        4    0.000    0.000    0.000    0.000 {cPickle.loads}
        4    0.000    0.000    0.000    0.000 {cPickle.dumps}
      104    0.000    0.000    0.000    0.000 …
Run Code Online (Sandbox Code Playgroud)

profiler apache-spark apache-spark-sql pyspark spark-dataframe

10
推荐指数
1
解决办法
5221
查看次数

如何检查一个数字是np.float64还是np.float32或np.float16?

除了使用一组或语句

isinstance( x, np.float64 )isinstance( x, np.float32 )isinstance( np.float16 )

是否有更简洁的方法来检查变量是浮动类型?

python numpy

9
推荐指数
2
解决办法
3082
查看次数

如何使用深度神经网络提高验证准确性?

我正在尝试构建一个包含13000个训练图像和3000个验证图像的11级图像分类器.我正在使用深度神经网络,正在使用mxnet进行训练.训练准确度正在提高并达到80%以上,但验证准确度达到54-57%且不会增加.这可能是什么问题?我应该增加图像的数量吗?

deep-learning caffe mxnet

8
推荐指数
1
解决办法
1万
查看次数

使用DBSCAN聚类GPS数据但是聚类没有意义(就大小而言)

我正在处理GPS数据(纬度,经度).对于基于密度的聚类,我在R中使用了DBSCAN.

在我的案例中DBSCAN的优点:

  1. 我不必预定义簇的数量
  2. 我可以计算距离矩阵(使用Haversine距离公式)并将其用作dbscan中的输入

    library(fossil)
    dist<- earth.dist(df, dist=T) #df is dataset containing lat long values
    library(fpc)
    dens<-dbscan(dist,MinPts=25,eps=0.43,method="dist")
    
    Run Code Online (Sandbox Code Playgroud)

现在,当我看到集群时,它们没有意义.有些星团的点数相差超过1公里.我想要密集的群集,但不是那么大.

考虑到不同的值MinPts和eps,并且我还使用k最近邻距离图来获得epsfor MinPts= 25 的最佳值

dbscan正在做的是进入我的数据集中的每个点,如果点p MinPts在其eps邻域中有一个集群,但同时它也加入了密度可达的集群(我猜这对我来说是个问题) .

这真的是一个很大的问题,特别是"如何在不过多影响其信息的情况下减少集群的大小",但我会将其写下来,如下所示:

  1. 如何删除群集中的边界点?我知道哪个群集使用哪个点dens$cluster,但我怎么知道特定点是核心还是边界?
  2. 群集0总是噪音吗?
  3. 我的印象是群集的大小可以与之相媲美eps.但事实并非如此,因为密度可达集群被组合在一起.
  4. 是否有任何其他聚类方法具有优势dbscan 但可以给我更有意义的聚类?

OPTICS 是另一种选择,但它会解决我的问题吗?

Note:有意义的我想说更接近的点应该在一个集群中.但是相距1km或更远的点不应该在同一个簇中.

r cluster-analysis dbscan

5
推荐指数
1
解决办法
6613
查看次数

加速python代码 - 我可以向量化双循环吗?

我是python的新手.我正在使用dbscan代码进行聚类以进行一些更改.现在代码运行正常,但速度非常慢.所以我发现我必须从我的代码中删除'for loop'.这是代码的一部分:

class Point:
    def __init__(self, x = 0, y = 0, visited = False, isnoise = False):
        self.x = x  
        self.y = y  
        self.visited = False  
        self.isnoise = False  

    def show(self):  
        return self.x, self.y 

    def dist(self, p1, p2):  
        #Calculate the great circle distance between two points on the earth (specified in decimal degrees)return distance between two point  
        # convert decimal degrees to radians 
        dlat = radians(p2.x-p1.x)
        dlon = radians(p2.y-p1.y)
        a = sin(dlat/2) * sin(dlat/2) + cos(radians(p1.x))* cos(radians(p2.x)) …
Run Code Online (Sandbox Code Playgroud)

python numpy vectorization

5
推荐指数
1
解决办法
889
查看次数

在python中使用rabbitmq时出现"pika.exceptions.ConnectionClosed"错误

我正在使用"hello world"教程:http://www.rabbitmq.com/tutorials/tutorial-two-python.html. worker.py看起来像这样

import pika
import time


connection = pika.BlockingConnection(pika.ConnectionParameters(
        host='localhost'))
channel = connection.channel()

channel.queue_declare(queue='task_queue', durable=True)
print ' [*] Waiting for messages. To exit press CTRL+C'

def callback(ch, method, properties, body):
    print " [x] Received %r" % (body,)
    time.sleep( body.count('.') )
    print " [x] Done"
    ch.basic_ack(delivery_tag = method.delivery_tag)

channel.basic_qos(prefetch_count=1)
channel.basic_consume(callback,
                      queue='task_queue')

channel.start_consuming()
Run Code Online (Sandbox Code Playgroud)

我已经在我的工作中使用了这段代码.一切都顺利进行,直到队列中出现一个点,打印后会引发异常[x] Done

Traceback (most recent call last):
  File "hullworker2.py", line 242, in <module>
    channel.basic_consume(callback,queue='test_queue2')
  File "/usr/local/lib/python2.7/dist-packages/pika/channel.py", line 211, in basic_consume
    {'consumer_tag': consumer_tag})]) …
Run Code Online (Sandbox Code Playgroud)

python rabbitmq pika

4
推荐指数
1
解决办法
8656
查看次数

如何在 k 均值中使用欧氏距离以外的不同距离公式

我正在处理纬度经度数据。我必须根据两点之间的距离进行聚类。现在两个不同点之间的距离是=ACOS(SIN(lat1)*SIN(lat2)+COS(lat1)*COS(lat2)*COS(lon2-lon1))*6371

我想在 R 中使用 k 均值。有什么方法可以覆盖该过程中的距离计算吗?

r cluster-analysis machine-learning data-mining k-means

3
推荐指数
1
解决办法
5473
查看次数