小编Sla*_*off的帖子

自动同义词检测的方法

我目前正致力于基于神经网络的短文档分类方法,并且由于我使用的语料库通常大约十个单词,因此标准统计文档分类方法的用途有限.由于这个事实,我试图对训练中提供的匹配实施某种形式的自动同义词检测.我的问题更具体地说是如何解决以下情况:

假设我有"涉及食物"的分类,以及"涉及领域"和以下数据集之一:

"Eating Apples"(Food);"Eating Marbles"(Spheres); "Eating Oranges"(Food, Spheres);
"Throwing Baseballs(Spheres)";"Throwing Apples(Food)";"Throwing Balls(Spheres)";
"Spinning Apples"(Food);"Spinning Baseballs";
Run Code Online (Sandbox Code Playgroud)

我正在寻找一种可以转向以下联系的增量方法:

Eating --> Food
Apples --> Food
Marbles --> Spheres
Oranges --> Food, Spheres
Throwing --> Spheres
Baseballs --> Spheres
Balls --> Spheres
Spinning --> Neutral
Involving --> Neutral
Run Code Online (Sandbox Code Playgroud)

我确实意识到在这种特殊情况下,这些可能是略微可疑的匹配,但它说明了我遇到的问题.我总的想法是,如果我增加了出现在一个类别词相反的词,但在这种情况下,我最终会顺带连接一切单词"涉及",我当时还以为我只是减少一个字出现在与多个同义词或非同义词结合,但我会失去"吃"和"食物"之间的联系.有没有人知道如何组合一个算法,让我按照上面指示的方向移动?

language-agnostic nlp artificial-intelligence machine-learning neural-network

6
推荐指数
1
解决办法
4738
查看次数

在内部为电子邮件模板包含外部样式表

我正在尝试为我的网站制作一些不错的电子邮件模板,但我对精心设计的代码和功能的渴望之间存在冲突。

我的问题是我所有的电子邮件模板都像标准模板一样格式化:

<!DOCTYPE html>
<html>
    <head>
        <link rel="stylesheet"...>
    </head>
    <body>
        Some stuff
    </body>
</html>
Run Code Online (Sandbox Code Playgroud)

它作为网页显示得很好,但是在尝试将其作为格式化的电子邮件发送时,它本质上只是发送了该Some stuff部分,这意味着没有任何格式可以真正传达它。

我当前的电子邮件代码如下所示:

message = Message(
    subject="Subject",
    html= render_template(
        'emails/confirmation_email.html',
        confirmation_code=confirmation.confirmation_code
    ),
    sender = ("sender", "sender@gmail.com")
)
Run Code Online (Sandbox Code Playgroud)

我正在使用 Jinja2 模板和 Flask-Mail 扩展。

基本上,我真的很想在我的电子邮件中包含这些样式表,但我真的反对在样式标签中包含所有内容。

html css email stylesheet jinja2

6
推荐指数
1
解决办法
4072
查看次数

将alembic与多个数据库一起使用

我有一个非常标准的烧瓶应用程序.它用于flask_sqlalchemy管理与postgres服务器的连接和alembic管理迁移.

现在的问题是我正在将它与另一个项目集成,这意味着我试图允许它从另一个数据库中提取单个模型.幸运的是,flask_sqlalchemySQLALCHEMY_BINDS旗帜有很大的支持.所以我的应用程序设置了这样的新模型:

class CoreUser(UserMixin, db.Model):
    __bind_key__ = 'core'

    id = db.Column(db.Integer, primary_key=True)
    email = db.Column(db.String(255), unique=True)
Run Code Online (Sandbox Code Playgroud)

到现在为止还挺好.我的应用程序现在应该检查其他数据库.这是减号.由于我正在使用alembic实际管理数据库中的所有模式,当我运行我的典型alembic revision --autogenerate脚本时,它实际上根本没有对第二个数据库做任何事情,而且似乎只是忽略了__bind_key__这个难题.

相反,它core_user在第一个数据库中设置了正确的关系.如何向alembic表明当遇到此模式定义时,它应该在不同的数据库中创建关系?

我已经尝试更新我的alembic.ini文件,如下所示在这个(古代)线程的建议:

[core_db]
sqlalchemy.url = <DATABASE_URI>
script_location = alembic
Run Code Online (Sandbox Code Playgroud)

然后运行以下命令:

alembic -n core_db revision --autogenerate
alembic -n core_db upgrade head
Run Code Online (Sandbox Code Playgroud)

虽然生成了修订版并且这不会失败,但实际上在core_db sqlalchemy.url参数指示的数据库中没有创建任何关系.

我找不到比4岁的Google小组帖子更好的文档,但我目前的方法似乎没有用,我没有任何明显的后续步骤.我无法找到相应的alembic文档,但这似乎是一个非常简单和常见的用例,所以我无法想象这是不受支持的.

有什么建议?

python postgresql flask flask-sqlalchemy alembic

6
推荐指数
2
解决办法
2880
查看次数

如何解码语音输入

我想要做的是创建一个API,将人类语音翻译成IPA(国际音标)格式.我的问题是,关于如何在原始音频波形的水平上解码语音的资源在哪里.我找了一个API,但我发现的大部分内容都直接翻译成罗马字母.我正在寻找能够区分声乐语音的能力.

audio speech-recognition machine-learning voice-recognition

5
推荐指数
1
解决办法
747
查看次数

用python验证Tor的麻烦

可能在这里做一些非常愚蠢的事情,但是我在通过Tor自动进行身份验证时遇到了一些麻烦.

我使用32位ubuntu 12.04与混淆桥.

这应该是所有相关的代码,但请告诉我是否有其他一些在调试此问题时有用:

import socket
import socks
import httplib

def connectTor():
    socks.setdefaultproxy(socks.PROXY_TYPE_SOCKS5, "127.0.0.1", 9050, True)
    #9050 is the Tor proxy port
    socket.socket = socks.socksocket

def newIdentity():
    socks.setdefaultproxy() #Disconnect from Tor network

s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

s.connect(("127.0.0.1", 46594))

s.send("AUTHENTICATE\r\n")

response = s.recv(128)
#128 bytes of data for now, just to see how Tor responds

print response
if response.startswith("250"): #250 is the code for a positive response from Tor
    s.send("SIGNAL NEWNYM\r\n") #Use a new identity
s.close()

connectTor() #Just to make sure …
Run Code Online (Sandbox Code Playgroud)

sockets authentication proxy tor

5
推荐指数
1
解决办法
4274
查看次数

计算一长串随机双精度的几何平均数

所以,我今天在构建限制Boltzmann机器时遇到了一个问题,这应该是微不足道的,但似乎很麻烦.基本上我正在将2k值初始化为0到1之间的随机双精度数.

我想要做的是计算这个数据集的几何平均值.我遇到的问题是,由于数据集太长,所以将所有内容相乘将始终导致零,并且在每一步执行正确的根将只会导致1.

我可能会把这个列表列入其中,但我认为这真的很糟糕.关于如何以优雅的方式做到这一点的任何想法?

从理论上讲,我希望将当前的RBM代码扩展到接近15k +条目,并能够跨多个线程运行RBM.可悲的是,这排除了apache commons math(几何平均方法不同步),多头.

java math

5
推荐指数
1
解决办法
1099
查看次数

Sublime Text 2中的Pylint

所以,我作为一个简单的文本编辑器已经使用Sublime了一段时间,但是我正在冒险进入插件领域工作,我遇到了一个让pylint工作的问题.具体来说,我安装了它并让Sublime包管理器工作,但我不确定如何在我的sublime设置中包含路径.

我没有找到关于这一点的非常有用的文档,但是如果你愿意指出我这是一个完全可以接受的答案.我的基本问题是,目前每次保存文件时,都会显示以下错误消息:

"Please define the full path to 'lint.py' in the settings"

我理解这个错误信息很好,我只是不知道sublime设置在哪里或者定义路径的标准格式是什么.任何帮助,将不胜感激.

plugins text-editor sublimetext2

5
推荐指数
1
解决办法
1万
查看次数

确保散列函数与切片完美混合

原谅我,如果这个问题是愚蠢的,但我开始了解一致性哈希和阅读就可以了汤姆·怀特的博客文章之后这里,实现大多数默认散列函数不好混我有一个想法上确保一个任意哈希函数最低限度的混合.

我的想法最好用这样的例子来解释:

Bucket 1: 11000110
Bucket 2: 11001110
Bucket 3: 11010110
Bucket 4: 11011110
Run Code Online (Sandbox Code Playgroud)

在这些存储桶之间进行一致缓存的标准哈希环实现下,您将获得非常高的性能,并且几乎每个条目都将被集中到Bucket 1中.但是,如果我们在每种情况下使用位4和5作为MSB,那么这些存储桶突然出色混合,并将新对象分配给缓存变得微不足道,只需要检查2位.

在我看来,在跨多个节点构建分布式网络时,可以非常容易地扩展这个概念.在我的特定情况下,我将使用它来确定将给定数据放入哪个缓存.增加的放置速度不是一个真正的问题,但确保我的缓存是混合良好的,我正在考虑选择一些最佳混合的位给我的给定缓存.稍后索引的任何信息将基于相同的位进行索引.

在我天真的想法中,这是一个比引入虚拟节点或构建更好的哈希函数更简单的解决方案.也就是说,我看不出有任何像这样的方法,我担心在我的哈希无知中,我在这里做错了,我可能会引入意想不到的后果.

这种方法安全吗?我应该用吗?之前是否使用过此方法,是否有任何已建立的算法来确定最小唯一位组?

language-agnostic hash bit-manipulation consistent-hashing

5
推荐指数
0
解决办法
184
查看次数

当我的动画结束时,transitionend事件不会触发

我正在尝试使用jQuery在css动画完成时触发事件并且它在很大程度上正常工作,但由于某种原因,transitionend直到我将鼠标移离相关对象才会调用事件.

这是方法:

function replaceWithSearch(){
    var searchWrapper = constructSearchBox("");
    $(this).addClass("animated fadeOut"); // css animation
    $(this).on('webkitTransitionEnd otransitionend oTransitionEnd msTransitionEnd transitionend',
    function (e){
        console.log(e);
        $(this).parent().replaceWith(searchWrapper);
        if (document.URL.indexOf("search?s=") == -1){
            document.getElementById("searchbox").focus();
        }
    });
}
Run Code Online (Sandbox Code Playgroud)

它似乎主要是因为在第一个css动画完成后,如果我将鼠标放在$(this)元素上,transitionend事件将不会触发.只要我将鼠标从元素上移开,一切都会完美无缺.

我真的很茫然这个,有什么想法吗?我正在使用animate.css中的css类.

javascript css jquery events animation

5
推荐指数
1
解决办法
2929
查看次数

拆分字符串并删除空白Python

我想用逗号分割一个字符串,','并从每个分割的开头和结尾删除空格.

例如,如果我有字符串:

"QVOD, Baidu Player"

我想拆分并剥离:

['QVOD', 'Baidu Player']

这样做有一种优雅的方式吗?可能使用列表理解?

python regex whitespace split strip

5
推荐指数
1
解决办法
6367
查看次数