小编Clo*_*ave的帖子

在gensim LdaModel中提取主题词概率矩阵

我有 LDA 模型和文档主题概率。

# build the model on the corpus
ldam = LdaModel(corpus=corpus, num_topics=20, id2word=dictionary) 
# get the document-topic probabilities
theta, _ = ldam.inference(corpus)
Run Code Online (Sandbox Code Playgroud)

我还需要所有主题的词分布,即主题词概率矩阵。有没有办法提取这些信息?

谢谢!

python lda gensim topic-modeling

3
推荐指数
1
解决办法
2188
查看次数

数据表 - 按图像的替代字符串对列进行排序

我有三个标题的表。第二列由图像组成。我想使用它们的alt字符串实现对这些图像的排序。我正在使用 DataTables 来帮助排序。我已经阅读了文档,但在实现排序时仍然面临问题。这是我到目前为止

jQuery.extend(jQuery.fn.dataTableExt.oSort, {
  "alt-string-pre": function(a) {
    return a.match(/alt="(.*?)"/)[1].toLowerCase();
  },
  "alt-string-asc": function(a, b) {
    return ((a < b) ? -1 : ((a > b) ? 1 : 0));
  },
  "alt-string-desc": function(a, b) {
    return ((a < b) ? 1 : ((a > b) ? -1 : 0));
  }
});

$(document).ready(function() {
  var table = $('#example').DataTable();
});
Run Code Online (Sandbox Code Playgroud)
<link href="//datatables.net/download/build/nightly/jquery.dataTables.css" rel="stylesheet" type="text/css" />
<script src="http://code.jquery.com/jquery-1.9.1.min.js"></script>
<script src="https://cdn.datatables.net/1.10.15/js/jquery.dataTables.min.js"></script>
<div class="container">
  <table id="example" class="example" width="100%">
    <thead>
      <tr>
        <th>Name</th>
        <th>Image</th>
        <th>Office</th>
      </tr> …
Run Code Online (Sandbox Code Playgroud)

html javascript jquery datatables

3
推荐指数
1
解决办法
3092
查看次数

Pandas-将值设置为空数据框

我已经初始化了一个空的 pandas 数据框,我现在正在尝试填充该数据框,但我一直遇到相同的错误。这是我正在使用的(简化的)代码

import pandas as pd
cols = list("ABC")
df = pd.DataFrame(columns=cols)
# sett the values for the first two rows
df.loc[0:2,:] = [[1,2],[3,4],[5,6]]
Run Code Online (Sandbox Code Playgroud)

运行上面的代码时,我收到以下错误:

ValueError: cannot copy sequence with size 3 to array axis with dimension 0
Run Code Online (Sandbox Code Playgroud)

我不确定是什么原因造成的。我一次使用一行进行了相同的尝试,它有效(df.loc[0,:] = [1,2,3])。我认为当我想处理多行时,这应该是逻辑扩展。但显然,我错了。执行此操作的正确方法是什么?我需要为多行和多列输入一次值。我可以使用循环来做到这一点,但这不是我想要的。

任何帮助都会很棒。谢谢

python pandas

3
推荐指数
1
解决办法
1万
查看次数

PySpark:从随机统一分配中创建数据帧

我试图在Spark中使用随机均匀分布创建数据帧.我找不到关于如何创建数据帧的任何内容,但是当我阅读文档时,我发现pyspark.mllib.random有一个RandomRDDs对象有一个uniformRDD方法可以从随机均匀分布创建rdds.

但问题是它不会创建二维rdds.有没有办法可以创建二维rdd或(最好)数据帧?

我可以创建一些rdds并使用它们来创建数据帧,但我使用的数据集有很多字段(100+)并创建100s的rdds然后压缩它们似乎效率不高.

python apache-spark pyspark

3
推荐指数
1
解决办法
1116
查看次数

PySpark:执行联合时列数据类型发生变化

我在列表中存储了三个数据帧data_multi。每个数据框都有相同的列名和相同的数据类型

>>> set(data_multi[0].columns) == set(data_multi[1].columns)  == set(data_multi[2].columns)
True
Run Code Online (Sandbox Code Playgroud)

dtypes(仅显示一列)

>>> data_multi[0].select('aml_id_key_12739').dtypes
[('aml_id_key_12739', 'bigint')]

>>> data_multi[1].select('aml_id_key_12739').dtypes
[('aml_id_key_12739', 'bigint')]

>>> data_multi[2].select('aml_id_key_12739').dtypes
[('aml_id_key_12739', 'bigint')]
Run Code Online (Sandbox Code Playgroud)

我复制了 SO 上的帖子中提到的一个函数,该函数联合(rbinds)所有数据帧

def unionAll(*dfs):
    return reduce(DataFrame.unionAll, dfs)
Run Code Online (Sandbox Code Playgroud)

使用这个,我将三个数据帧联合起来得到一个 data_single = unionAll(*ddata_multi)

这是我面临问题的地方。aml_id_key_12739每个数据帧中的列是 a但'bigint'在并集之后它就变成了'double'

>>> pprint(data_single.select('aml_id_key_12739').dtypes)
[('aml_id_key_12739', 'double')]
Run Code Online (Sandbox Code Playgroud)

因此我的整个 id 列都搞乱了。我在忽略什么?

python apache-spark pyspark

3
推荐指数
1
解决办法
2607
查看次数

在Spark 2.3中使用G1GC垃圾收集器

我正在尝试将G1GC垃圾收集器用于火花作业,但是我得到了一个

Error: Invalid argument to --conf: -XX:+UseG1GC
Run Code Online (Sandbox Code Playgroud)

我尝试使用这些选项,但无法使其正常工作

spark-submit --master spark://192.168.60.20:7077 --conf -XX:+UseG1GC /appdata/bblite-codebase/test.py
Run Code Online (Sandbox Code Playgroud)

spark-submit --master spark://192.168.60.20:7077 -XX:+UseG1GC /appdata/bblite-codebase/test.py
Run Code Online (Sandbox Code Playgroud)

G1GC从Spark 调用收集器的正确方法是什么?

garbage-collection g1gc apache-spark pyspark

3
推荐指数
1
解决办法
2989
查看次数

让熊猫打印完整的字符串

我有一个包含两列的 Pandas 数据框 - 一列用于 id,另一列用于相应的标题。我正在为几个项目 ID 子集数据框并显示结果数据框。这样做时,项目 id 显示正常,但相应的标题被截断并...以几个字符结束,如何让 Pandas 在标题列中显示全文?

python pandas

2
推荐指数
1
解决办法
4497
查看次数

从CNN中的卷积层到完全连接层的输入的尺寸

问题在于卷积神经网络的数学细节.假设网络的结构(其目标是图像分类)是这样的

  • 输入图像32x32
  • 第一个隐藏层3x28x28(通过卷积为5x5,步长= 0且没有填充的3个滤波器形成),然后激活
  • 汇集层(汇集在2x2区域上),产生3x14x14的输出
  • 第二个隐藏层6x10x10(由6个大小为5x5的过滤器卷积形成,步长= 0且没有填充),然后激活
  • 汇集层(汇集在2x2区域上),产生6x5x5的输出
  • 完全连接层(FCN)-1,具有100个神经元
  • 完全连接层(FCN)-2有10个神经元

从我到目前为止的读数,我已经知道每个6x5x5矩阵都连接到FCN-1.我有两个问题,这两个问题都与一层输出到另一层的方式有关.

  1. 第二个汇集层的输出为6x5x5.这些如何喂给FCN-1?我的意思是FCN-1中的每个神经元都可以看作是以标量作为输入(或1x1矩阵)的节点.那么我们如何为它输入6x5x5的输入?我最初认为我们将6x5x5矩阵展平并将其转换为150x1阵列,然后将其馈送到神经元,就像我们有150个训练点一样.但是没有弄平特征图打败图像空间结构的论点?
  2. 从第一个汇集层,我们得到3个大小为14x14的特征映射.如何生成第二层中的要素图?假设我从第一个卷积层得到的3个特征映射中查看相同的区域(从特征映射的左上角开始的5x5区域).这三个5x5补丁是否用作单独的训练示例,以在下一组特征映射中生成相应的区域?如果是这样,那么如果三个特征图是输入图像的RGB值呢?我们还会将它们作为单独的培训示例吗?

artificial-intelligence neural-network conv-neural-network

2
推荐指数
1
解决办法
3324
查看次数

如何阅读这个JSON文件?

我有一个看起来像这样的JSON文件:

20219
{"topic":"electronics","question":"What is the effective differencial effective of this circuit","excerpt":"I'm trying to work out, in general terms, the effective capacitance of this circuit (see diagram: http://i.stack.imgur.com/BS85b.png).  \n\nWhat is the effective capacitance of this circuit and will the ...\r\n        "}
{"topic":"electronics","question":"Heat sensor with fan cooling","excerpt":"Can I know which component senses heat or acts as heat sensor in the following circuit?\nIn the given diagram, it is said that the 4148 diode acts as the sensor. But basically it is a zener …
Run Code Online (Sandbox Code Playgroud)

python json

2
推荐指数
1
解决办法
6879
查看次数

python将所有键转换为字符串

我有嵌套的字典,有一些数字键。我需要将此字典存储为 JSON,并且由于这些键是数字,因此我无法将它们存储为 JSON。我写了下面的代码,但它给了我一个错误,说字典的长度已经改变(RuntimeError: dictionary changed size during iteration)。

def convert_to_str(dictionary):
    for key in dictionary:
        print (key)
        found = False
        non_str_keys = []
        if not isinstance(key, str):
            print(key, 'is not a string')
            dictionary[str(key)] = dictionary[key]
            non_str_keys.append(key)
        if isinstance(dictionary[str(key)], dict):
            dictionary[str(key)] = convert_to_str(dictionary[str(key)])
            non_str_keys.append(key)
        if non_str_keys:
            for each_non_str_key in non_str_keys:
                del dictionary[each_non_str_key]
    return dictionary
Run Code Online (Sandbox Code Playgroud)

我如何避免这种情况?我的字典是——

a = {
  "age": {
    1: 25.0,
    2: 50.25,
    3: 50.0,
    4: 75.0,
    5: 14.580906789680968,
    6: [
      25.0,
      30.0,
      34.800000000000004,
      40.0,
      46.60000000000001,
      50.0,
      56.0,
      61.0, …
Run Code Online (Sandbox Code Playgroud)

python json dictionary

2
推荐指数
1
解决办法
7630
查看次数

Pandas一次初始化多个列

我有一个数据帧,我需要在其中创建两个(或更多)新列,这两个列都初始化为零.这就是我要到达那里 -

import pandas as pd
df = pd.DataFrame({'value': {0: 0.6, 1: 0.5, 2: -0.7, 3: 0.6, 4: 0.7, 5: -0.7, 6: 0.9, 7: 0.5, 8: -0.6, 9: 0.5, 10: 0.6, 11: -0.5, 12: 0.5, 13: -0.6}, '_bare_nuclei': {0: 1, 1: 1, 2: 1, 3: 0, 4: 0, 5: 0, 6: 0, 7: 0, 8: 0, 9: 0, 10: 0, 11: 0, 12: 0, 13: 0}, '_bland_chromatin': {0: 0, 1: 0, 2: 0, 3: 1, 4: 1, 5: 1, 6: …
Run Code Online (Sandbox Code Playgroud)

python pandas

2
推荐指数
1
解决办法
239
查看次数

检查字符串是否包含回文子串的最快方法

我试图检查一个字符串是否包含任何长度 > 1 的子字符串,这是一个回文。(请注意,这与检查整个字符串是否为回文串不同。)我能够编写一个函数来查找偶数或奇数长度的回文子串;我已尽我所能对其进行优化,但我的代码超出了一些测试用例的时间限制。

如何改进算法以使其更快?

def findPalindrome(s):
    ans = ""
    for i in range(len(s)):
        for k in range(2):
            temp = str_parser(s, i, i + k)
            if len(temp) > len(ans) and len(temp) > 1:
                return 1
    return 0


def str_parser(s, l, r):
    while l >= 0 and r < len(s):
        if s[r] == s[l] and len(s[l:r+1]) > 1:
            return s[l:r+1]
        else:
            l -= 1
            r += 1
    return ''
Run Code Online (Sandbox Code Playgroud)

findPalindrome如果输入字符串包含回文,该函数返回 1,否则返回 0。

python string algorithm substring palindrome

2
推荐指数
2
解决办法
150
查看次数