标签: lsa

什么可以导致Windows上的Kerberos TGT会话密钥全为零

我最近问了一个问题,我正在让MIT Kerberos与微软的LSA凭证缓存很好地协同工作.

我被告知设置注册表项AllowTGTSessionKey应该可以解决问题.

但是,我仍然遇到问题,现在我挖得更深了.

运行klist tgt(使用Microsoft提供的klist \windows\system32),它在所有其他输出中显示:

Session Key        : KeyType 0x17 - RSADSI RC4-HMAC(NT)
                   : KeyLength 16 - 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
Run Code Online (Sandbox Code Playgroud)

因此,会话密钥仍然被消隐,即使这是上面提到的注册表项应该解决的问题.

那么哪些其他条件可能导致会话密钥被消除?

我现在尝试了各种各样的用户帐户(域管理员,域用户,启用和不启用UAC),似乎没有任何区别.

那么,有谁知道问题可能是什么?或者知道一个解决方案(和/或丑陋的hacky解决方法)

kerberos lsa

5
推荐指数
1
解决办法
2918
查看次数

相干性分数 (u_mass) -18 是好是坏?

我读了这个问题(相干分数 0.4 是好还是坏?),发现相干分数(u_mass)是从 -14 到 14。但是当我做实验时,我得到的 u_mass 分数为 -18,c_v 分数为 0.67 。我想知道我的 u_mass 分数如何超出范围 (-14, 14)?

更新:我使用gensim库并扫描了从2到50的主题数量。对于u_mass,它从0开始到最低的负点并返回一点,就像c_v的颠倒版本。

nlp lsa lda topic-modeling topicmodels

4
推荐指数
1
解决办法
1万
查看次数

在R中的矩阵中的特定列对之间应用函数

我在R中使用lsa包生成矩阵.创建矩阵后,我想计算矩阵中特定文档对(列)之间的余弦相似度.

目前,我使用嵌套的for循环执行此操作,并且速度非常慢.在下面的代码中,有150个sourceID和6413个targetID,总共961.950个比较.在我的数字碾压机上一个半小时后,它只能通过~300k.

有关详细信息,sourceIDtargetID是列名称的向量,从包含这些名称的两个文件加载.我想在所有源 - >目标对之间应用余弦函数.列由文档名称索引,文档名称是字符串.

我确信使用apply有一个更快的方法,但是我无法绕过它.

library(lsa)

# tf function
real_tf <- function(m)
{
    return (sweep(m, MARGIN=2, apply(m, 2, max), "/"))
}

#idf function
real_idf <- function(m)
{
    df = rowSums(lw_bintf(m), na.rm=TRUE)
    return (log(ncol(m)/df))
}

#load corpus
lsa.documents <- textmatrix(args[1], minWordLength=1, minDocFreq=0)

# compute tf-idf
lsa.weighted_documents <- real_tf(lsa.documents) * real_idf(lsa.documents)

# compute svd
lsa.nspace <- lsa(lsa.weighted_documents, dims = as.integer(args[5]))
lsa.matrix <- diag(lsa.nspace$sk) %*% t(lsa.nspace$dk)

# compute …
Run Code Online (Sandbox Code Playgroud)

r matrix apply lsa

3
推荐指数
1
解决办法
1332
查看次数

奇异值分解:Jama、PColt 和 NumPy 的不同结果

我想在一个大(稀疏)矩阵上执行奇异值分解。为了选择最好(最准确)的库,我尝试使用不同的 Java 和 Python 库复制此处提供的 SVD 示例。奇怪的是,我在每个库中得到了不同的结果。

这是原始示例矩阵及其分解(US 和 VT)矩阵:

A =2.0  0.0 8.0 6.0 0.0
   1.0 6.0 0.0 1.0 7.0
   5.0 0.0 7.0 4.0 0.0
   7.0 0.0 8.0 5.0 0.0 
   0.0 10.0 0.0 0.0 7.0

U =-0.54 0.07 0.82 -0.11 0.12
   -0.10 -0.59 -0.11 -0.79 -0.06
   -0.53 0.06 -0.21 0.12 -0.81
   -0.65 0.07 -0.51 0.06 0.56
   -0.06 -0.80 0.09 0.59 0.04

VT =-0.46 0.02 -0.87 -0.00 0.17
    -0.07 -0.76 0.06 0.60 0.23
    -0.74 0.10 0.28 0.22 -0.56 …
Run Code Online (Sandbox Code Playgroud)

numpy jama svd colt lsa

3
推荐指数
1
解决办法
4131
查看次数

如何处理余弦相似度的负值

我根据术语计算了文档的 tf-idf。然后,我应用 LSA 来降低术语的维数。'similarity_dist' 包含负值(见下表)。如何计算范围 0-1 的余弦距离?

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, tokenizer=tokenize_and_stem, stop_words='english')
%time tf = tf_vectorizer.fit_transform(descriptions)
print(tf.shape)
svd  = TruncatedSVD(100)
normalizer = Normalizer(copy=False)
lsa = make_pipeline(svd, normalizer)
tfidf_desc = lsa.fit_transform(tfidf_matrix_desc)
explained_variance = svd.explained_variance_ratio_.sum()
print("Explained variance of the SVD step: {}%".format(int(explained_variance * 100)))

similarity_dist = cosine_similarity(tfidf_desc)
pd.DataFrame(similarity_dist,index=descriptions.index, columns=descriptions.index).head(10)

print(tfidf_matrix_desc.min(),tfidf_matrix_desc.max())
#0.0 0.736443429828

print(tfidf_desc.min(),tfidf_desc.max())
#-0.518015429416 0.988306783341

print(similarity_dist.max(),similarity_dist.min())
#1.0 -0.272010919022
Run Code Online (Sandbox Code Playgroud)

在此处输入图片说明

python svd lsa cosine-similarity scikit-learn

3
推荐指数
1
解决办法
1万
查看次数

进行文本聚类时,为什么要在K-Means之前使用LSA

我正在学习Scikit的本教程,以学习使用K-Means进行文本聚类:http ://scikit-learn.org/stable/auto_examples/text/document_clustering.html

在该示例中,可选地,使用LSA(使用SVD)执行降维。

为什么这有用?尺寸(功能)的数量已经可以使用“ max_features”参数在TF-IDF矢量化器中进行控制。

我知道LSA(和LDA)也是主题建模技术。群集的区别在于文档属于多个主题,但仅属于一个群集。我不明白为什么LSA将在K-Means集群的背景下使用。

示例代码:

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

documents = ["some text", "some other text", "more text"]

tfidf_vectorizer = TfidfVectorizer(max_df=0.5, max_features=10000, min_df=2, stop_words='english', use_idf=True)
X = tfidf_vectorizer.fit_transform(documents)

svd = TruncatedSVD(1000)
normalizer = Normalizer(copy=False)
lsa = make_pipeline(svd, normalizer)
Xnew = lsa.fit_transform(X)

model = KMeans(n_clusters=10, init='k-means++', max_iter=100, n_init=1, verbose=False)
model.fit(Xnew)
Run Code Online (Sandbox Code Playgroud)

python svd lsa k-means scikit-learn

3
推荐指数
2
解决办法
2446
查看次数

使用R-lsa包计算语义空间中文档之间的余弦相似性

我正在尝试使用R语言对类似文档进行聚类.作为第一步,我为我的文档集计算术语 - 文档矩阵.然后我为先前创建的术语 - 文档矩阵创建潜在的语义空间.我决定在我的实验中使用LSA,因为使用term-document矩阵进行聚类的结果非常糟糕.是否可以使用创建的LSA空间构建相异矩阵(使用余弦度量)?我需要这样做,因为我使用的聚类算法需要一个相异矩阵作为输入.

这是我的代码:

require(cluster);
require (lsa);

myMatrix = textmatrix("/home/user/DocmentsDirectory");
myLSAspace = lsa(myMatrix, dims=dimcalc_share());
Run Code Online (Sandbox Code Playgroud)

我需要从LSA空间构建一个相异矩阵(使用余弦测量),所以我可以调用聚类算法如下:

clusters = pam(dissimilartiyMatrix,10,diss=TRUE);
Run Code Online (Sandbox Code Playgroud)

有什么建议?

提前致谢!

trigonometry r cluster-analysis text-mining lsa

2
推荐指数
1
解决办法
3711
查看次数

Windows密码筛选器DLL未加载

我试图基于这篇devx文章中的示例在C++中实现一个非常基本的Windows密码过滤器

但是LSA没有加载DLL(msinfo32中加载的模块中没有任何内容),尽管设置了相应的reg条目并且DLL被复制到system32并重新启动.这发生在2003 x64和2008R2(显然也是x64).到目前为止,我已经搜索了stackoverflow并实现了所有建议.

我正在使用VS2012.它被设置为x64和/ MT(所以我不需要redist吧?)我确保正确引用.def文件.在依赖walker中,我可以看到正确导出的三个函数,尽管它说"由于隐式依赖模块中缺少导出函数,至少有一个模块具有未解析的导入".并声称kernel32.dll缺少一些导入(不确定是否相关).

如何调试LSA加载DLL时发生的事情?注意我不是开发人员所以上面的一些是相当模糊的,尤其是在编译/链接和导出函数时的行为.

非常感谢

c++ dll lsa visual-c++

1
推荐指数
1
解决办法
1018
查看次数