小编sil*_*dev的帖子

如何访问keras中的类概率？

我正在训练一个模型,我需要报告类概率而不是单个分类.我有三个类,每个训练实例都有三个类中的任何一个.

我正在尝试使用Keras创建一个MLP.但我无法想象如何提取每个类的最终类概率.我使用它作为我的基本示例:http://machinelearningmastery.com/regression-tutorial-keras-deep-learning-library-python/

谢谢 !

python keras

sil*_*dev

lucky-day

10
推荐指数

2
解决办法

1万
查看次数

无法获得Tweet的国家 - Twython API

我使用以下代码收集与特定主题相关的推文,但在我提取的所有推文中,'places'属性为None.难道我做错了什么？此外,该代码旨在提取现有的推文,我不需要流API解决方案,也不需要寻找这种流API的解决方案:https://www.quora.com/How-can-I-get-a-stream-的鸣叫-从-A-特定国-使用-Twitter的API

api =   Twython(consumer_key, consumer_secret, access_key, access_secret)

tweets                          =   []
MAX_ATTEMPTS                    =   200
COUNT_OF_TWEETS_TO_BE_FETCHED   =   10000
in_max_id = sys.argv[1]
next_max_id = ''
for i in range(0,MAX_ATTEMPTS):

    if(COUNT_OF_TWEETS_TO_BE_FETCHED < len(tweets)):
        break # we got 500 tweets... !!

    #----------------------------------------------------------------#
    # STEP 1: Query Twitter
    # STEP 2: Save the returned tweets
    # STEP 3: Get the next max_id
    #----------------------------------------------------------------#

    # STEP 1: Query Twitter
    if(0 == i):
        # Query twitter for data. 
        results    = api.search(q="#something",count='100',lang='en',max_id=in_max_id,include_entities='true',geo= True)
    else:
        # After …

Run Code Online (Sandbox Code Playgroud)

python twitter twython

sil*_*dev

2015 12-12

9
推荐指数

1
解决办法

870
查看次数

如何在Python中取消单词？

我想知道我是否可以将它们解除为正常状态？

问题是我有成千上万的不同形式的单词,例如吃,吃,吃,吃等等,我需要计算每个单词的频率.所有这些 - 吃,吃,吃,吃等都会计入吃,因此,我使用了茎.

但问题的下一部分要求我在数据中找到相似的单词,我使用nltk的同义词来计算单词中的Wu-Palmer相似度.问题是nltk的同义词不会对词干词起作用,或者至少在这段代码中它们不会.检查两个单词是否相互关联

我该怎么办？有没有办法解除一个字？

python nlp nltk

sil*_*dev

2017 05-23

7
推荐指数

3
解决办法

4859
查看次数

如何在Python中快速计算大量向量的余弦相似度？

我有一组10万个向量,我需要根据余弦相似性检索前25个最接近的向量.

Scipy和Sklearn有计算余弦距离/相似度2向量的实现,但我需要计算100k X 100k大小的余弦Sim然后取出前25.python计算中有任何快速实现吗？

根据@Silmathoron建议,这就是我正在做的事情 -

#vectors is a list of vectors of size : 100K x 400 i.e. 100K vectors each of dimenions 400
vectors = numpy.array(vectors)  
similarity = numpy.dot(vectors, vectors.T)


# squared magnitude of preference vectors (number of occurrences)
square_mag = numpy.diag(similarity)

# inverse squared magnitude
inv_square_mag = 1 / square_mag

# if it doesn't occur, set it's inverse magnitude to zero (instead of inf)
inv_square_mag[numpy.isinf(inv_square_mag)] = 0

# inverse of the magnitude
inv_mag = numpy.sqrt(inv_square_mag) …

Run Code Online (Sandbox Code Playgroud)

python vector scipy scikit-learn sklearn-pandas

sil*_*dev

2016 06-26

7
推荐指数

1
解决办法

1943
查看次数

如何从Python中的文件中读取多行列表？

我有一个文件,其中列表跨越多行 - 列表的长度为常量.但是,在每一行中,元素的数量可以变化.如何在Python中读取此文件以读取整个列表？

编辑:更喜欢非正则表达式解决方案.

看起来像这样的文件(仅用于说明):

   [ -6.70031086e-02   5.93684241e-02   1.11689426e-01   1.16174825e-01
      -3.74981388e-02   4.05267589e-02   2.02941950e-02   1.65661901e-01
       9.88883078e-02  -1.86108038e-01  -2.09761858e-01   2.08867267e-02
      -7.34964982e-02  -1.38626635e-01   1.33853648e-02  -1.11527992e-02
       7.19301552e-02   5.71861453e-02  -8.56672525e-02   8.01878721e-02
      -2.27990234e-03   8.93531218e-02  -7.99949542e-02  -3.89122330e-02
       3.07365637e-02  -1.14912149e-02  -1.25382066e-01   1.61550958e-02
      -9.03828740e-02  -8.40659663e-02   2.35458408e-02   6.62269741e-02
      -6.83306251e-03   3.86000201e-02  -2.85124127e-02  -1.22550033e-01
       6.14493713e-02   5.42194061e-02  -9.98141840e-02   3.87526527e-02
      -1.77935660e-02   6.59185136e-03  -7.56490007e-02  -8.04342143e-03
       4.22548652e-02  -4.90937680e-02   7.31833130e-02   4.60098870e-02
      -3.38455513e-02   7.72312284e-02   1.69506043e-01   8.54071528e-02
      -5.15969582e-02  -8.66574422e-02   2.78513003e-02  -8.26551542e-02
       5.72918989e-02  -8.63238499e-02  -1.09750973e-02  -1.04178898e-01
       4.04170994e-03   7.16830865e-02   1.16529778e-01   1.65875465e-01
       1.82720050e-02   1.71985731e-01  -2.09263922e-03  -3.31376195e-02
       1.26107544e-01   1.47209521e-02  -1.41869476e-02   5.07163629e-02
       1.49011686e-01   9.49593708e-02 …

Run Code Online (Sandbox Code Playgroud)

python file list

sil*_*dev

2016 06-25

6
推荐指数

1
解决办法

844
查看次数

如何在gensim 0.11.1中从Doc2Vec获取文档向量？

有没有办法在gensim 0.11.1版本中从Doc2Vec获取看不见的文档向量？

例如,假设我训练了模型1000万 - 我可以获得1000个文档的doc向量吗？
有没有办法获取由
相同词汇表组成的看不见的文档的文档向量？

python gensim word2vec doc2vec

sil*_*dev

lucky-day

5
推荐指数

1
解决办法

4015
查看次数

Python Pandas：如何取一列的分类平均值？

对于给定的数据帧如下：

Run Code Online (Sandbox Code Playgroud)

其中第 1 列是索引，第 2 列是某个分类值，第 3 列是一个数字。我想要第 2 列的分类平均值，它应该是这样的：

a 20
b 55

Run Code Online (Sandbox Code Playgroud)

a 的值计算为

(10+20+30)/3 = 20

Run Code Online (Sandbox Code Playgroud)

b 的值计算为

(10+100)/2 = 55

Run Code Online (Sandbox Code Playgroud)

pandas

sil*_*dev

lucky-day

4
推荐指数

1
解决办法

4441
查看次数

如何删除python中只包含数字的单词？

我在Python中有一些由数字和字母组成的文本.像这样的东西:

s = "12 word word2"

Run Code Online (Sandbox Code Playgroud)

从字符串s,我想删除所有只包含数字的单词

所以我想要结果

s = "word word2"

Run Code Online (Sandbox Code Playgroud)

这是我的正则表达式,但它适用于字母表,即它用空格替换每个字母表.

re.sub('[\ 0-9\ ]+', ' ', line)

Run Code Online (Sandbox Code Playgroud)

有人可以帮我告诉我什么是错的吗？此外,还有比正则表达式更有效的方法吗？

谢谢!

python regex string

sil*_*dev

lucky-day

3
推荐指数

2
解决办法

1884
查看次数

Bellman Ford算法在未知测试案例中失败

我正在为过去的课程之一设置问题。我应该实现Bellman Ford Algorithm，这样从源头上s我必须找到以下内容：

如果从s（输出为*）无法访问该节点
如果该节点可访问但属于负周期，因此没有最短路径（输出为-）
否则，输出s到节点的最短路径

我编写了以下代码，该代码在未知的测试案例中失败。有人可以帮我调试吗？

void relax_edges(vector <vector<int>> &adj, 
                 vector <vector<int>> &cost, 
                 vector<long long> &dis) 
  {
  /*Takes input as adjacency list and relax all possible edges
  */

  for (int i = 0; i < adj.size(); i++) {
    for (int j = 0; j < adj[i].size(); j++) {
      if (dis[i] < std::numeric_limits < long long > ::max() 
             && dis[adj[i][j]] > dis[i] + cost[i][j]){
        //std::cout<< adj[i][j]<<" "<<i<<"\n";
        dis[adj[i][j]] = dis[i] …

Run Code Online (Sandbox Code Playgroud)

algorithm graph bellman-ford

sil*_*dev

2017 01-22

3
推荐指数

1
解决办法

575
查看次数

如何将整个数据帧值转换为在 Pandas 中浮动

我的问题和这个类似。

我想将数据框中的所有值转换为浮点型。但更需要的是忽略无法发生此类转换的行。

例如，给定字符串 '0.9'，它将成功转换为浮点数，但像 'why' 这样的字符串将通过错误。我想删除数据框中的所有此类行，这些行会出现在错误情况下。

python pandas

sil*_*dev

2017 06-05

2
推荐指数

1
解决办法

9020
查看次数

使用"排序"根据时间戳对终端中的CSV排序

论坛上有多个答案,关于如何使用终端的排序命令对csv进行排序,但似乎没有一个对我有用.这是文件结构:

cowboy,16:36:37,2006-03-01,top/adult/arts/animation/anime/resources
pants,14:29:10,2006-03-01,top/adult/arts/magazines and e-zines
women,01:40:40,2006-03-01,top/adult/arts/literature/publishers
happy,05:02:05,2006-03-02,top/adult/arts/comics/free
hen,21:23:37,2006-03-01,top/adult/arts/comics/free
hurts,16:49:59,2006-03-01,top/adult/arts/magazines and e-zines
tent,00:45:26,2006-03-01,top/adult/arts/magazines and e-zines
toon.com,02:00:44,2006-03-01,top/adult/arts/animation/cartoons/members
sim city,18:35:28,2006-03-01,top/adult/arts/magazines and e-zines
superheros,12:34:15,2006-03-01,top/adult/arts/comics/comic strips and panels/members

Run Code Online (Sandbox Code Playgroud)

我试过sort --key=3,2 -t,但它不起作用.有人可以帮忙吗？

csv sorting bash

sil*_*dev

lucky-day

1
推荐指数

1
解决办法

356
查看次数

无法在C#中使用标准正则表达式

我是C#的新手,我正试图从这个问题重用这个正则表达式,但不幸的是,它没有给我任何结果.C#代码如下:

string pattern = @"^(((ht|f)tp(s?))\:\/\/)?(www.|[a-zA-Z].)[a-zA-Z0-9\-\.]+\.(com|edu|gov|mil|net|org|biz|info|name|museum|us|bd|ca|uk)(\:[0-9]+)*(\/($|[a-zA-Z0-9\.\,\;\?\'\\\+&amp;%\$#\=~_\-]+))*$";

var linkParser = new Regex(pattern, RegexOptions.Compiled | RegexOptions.IgnoreCase);
var rawString = @"www.antilogvacations.com bhxbldsa 
                https://www.sample.com
                http://www.sample.com/xyz
                www.sample.com
                www.sample.com/xyz/#/xyz
                sample.com
                blah www.sample.com blah mofiz.com";
MatchCollection matches = linkParser.Matches(rawString);
foreach (Match m in matches)
   Console.WriteLine(m.Value);
}

Run Code Online (Sandbox Code Playgroud)

同样的正则表达式正常工作:https://regex101.com

我不明白我可能做错了什么.

编辑1:正则表达式也无法捕获文本中的URL,例如rawString中的最后一行.

c# regex

sil*_*dev

2018 03-15

0
推荐指数

1
解决办法

68
查看次数