我最近问了一个问题,我正在让MIT Kerberos与微软的LSA凭证缓存很好地协同工作.
我被告知设置注册表项AllowTGTSessionKey应该可以解决问题.
但是,我仍然遇到问题,现在我挖得更深了.
运行klist tgt(使用Microsoft提供的klist \windows\system32),它在所有其他输出中显示:
Session Key : KeyType 0x17 - RSADSI RC4-HMAC(NT)
: KeyLength 16 - 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
Run Code Online (Sandbox Code Playgroud)
因此,会话密钥仍然被消隐,即使这是上面提到的注册表项应该解决的问题.
那么哪些其他条件可能导致会话密钥被消除?
我现在尝试了各种各样的用户帐户(域管理员,域用户,启用和不启用UAC),似乎没有任何区别.
那么,有谁知道问题可能是什么?或者知道一个解决方案(和/或丑陋的hacky解决方法)
我读了这个问题(相干分数 0.4 是好还是坏?),发现相干分数(u_mass)是从 -14 到 14。但是当我做实验时,我得到的 u_mass 分数为 -18,c_v 分数为 0.67 。我想知道我的 u_mass 分数如何超出范围 (-14, 14)?
更新:我使用gensim库并扫描了从2到50的主题数量。对于u_mass,它从0开始到最低的负点并返回一点,就像c_v的颠倒版本。
我在R中使用lsa包生成矩阵.创建矩阵后,我想计算矩阵中特定文档对(列)之间的余弦相似度.
目前,我使用嵌套的for循环执行此操作,并且速度非常慢.在下面的代码中,有150个sourceID和6413个targetID,总共961.950个比较.在我的数字碾压机上一个半小时后,它只能通过~300k.
有关详细信息,sourceID和targetID是列名称的向量,从包含这些名称的两个文件加载.我想在所有源 - >目标对之间应用余弦函数.列由文档名称索引,文档名称是字符串.
我确信使用apply有一个更快的方法,但是我无法绕过它.
library(lsa)
# tf function
real_tf <- function(m)
{
return (sweep(m, MARGIN=2, apply(m, 2, max), "/"))
}
#idf function
real_idf <- function(m)
{
df = rowSums(lw_bintf(m), na.rm=TRUE)
return (log(ncol(m)/df))
}
#load corpus
lsa.documents <- textmatrix(args[1], minWordLength=1, minDocFreq=0)
# compute tf-idf
lsa.weighted_documents <- real_tf(lsa.documents) * real_idf(lsa.documents)
# compute svd
lsa.nspace <- lsa(lsa.weighted_documents, dims = as.integer(args[5]))
lsa.matrix <- diag(lsa.nspace$sk) %*% t(lsa.nspace$dk)
# compute …Run Code Online (Sandbox Code Playgroud) 我想在一个大(稀疏)矩阵上执行奇异值分解。为了选择最好(最准确)的库,我尝试使用不同的 Java 和 Python 库复制此处提供的 SVD 示例。奇怪的是,我在每个库中得到了不同的结果。
这是原始示例矩阵及其分解(US 和 VT)矩阵:
A =2.0 0.0 8.0 6.0 0.0
1.0 6.0 0.0 1.0 7.0
5.0 0.0 7.0 4.0 0.0
7.0 0.0 8.0 5.0 0.0
0.0 10.0 0.0 0.0 7.0
U =-0.54 0.07 0.82 -0.11 0.12
-0.10 -0.59 -0.11 -0.79 -0.06
-0.53 0.06 -0.21 0.12 -0.81
-0.65 0.07 -0.51 0.06 0.56
-0.06 -0.80 0.09 0.59 0.04
VT =-0.46 0.02 -0.87 -0.00 0.17
-0.07 -0.76 0.06 0.60 0.23
-0.74 0.10 0.28 0.22 -0.56 …Run Code Online (Sandbox Code Playgroud) 我根据术语计算了文档的 tf-idf。然后,我应用 LSA 来降低术语的维数。'similarity_dist' 包含负值(见下表)。如何计算范围 0-1 的余弦距离?
tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, tokenizer=tokenize_and_stem, stop_words='english')
%time tf = tf_vectorizer.fit_transform(descriptions)
print(tf.shape)
svd = TruncatedSVD(100)
normalizer = Normalizer(copy=False)
lsa = make_pipeline(svd, normalizer)
tfidf_desc = lsa.fit_transform(tfidf_matrix_desc)
explained_variance = svd.explained_variance_ratio_.sum()
print("Explained variance of the SVD step: {}%".format(int(explained_variance * 100)))
similarity_dist = cosine_similarity(tfidf_desc)
pd.DataFrame(similarity_dist,index=descriptions.index, columns=descriptions.index).head(10)
print(tfidf_matrix_desc.min(),tfidf_matrix_desc.max())
#0.0 0.736443429828
print(tfidf_desc.min(),tfidf_desc.max())
#-0.518015429416 0.988306783341
print(similarity_dist.max(),similarity_dist.min())
#1.0 -0.272010919022
Run Code Online (Sandbox Code Playgroud)
我正在学习Scikit的本教程,以学习使用K-Means进行文本聚类:http ://scikit-learn.org/stable/auto_examples/text/document_clustering.html
在该示例中,可选地,使用LSA(使用SVD)执行降维。
为什么这有用?尺寸(功能)的数量已经可以使用“ max_features”参数在TF-IDF矢量化器中进行控制。
我知道LSA(和LDA)也是主题建模技术。群集的区别在于文档属于多个主题,但仅属于一个群集。我不明白为什么LSA将在K-Means集群的背景下使用。
示例代码:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
documents = ["some text", "some other text", "more text"]
tfidf_vectorizer = TfidfVectorizer(max_df=0.5, max_features=10000, min_df=2, stop_words='english', use_idf=True)
X = tfidf_vectorizer.fit_transform(documents)
svd = TruncatedSVD(1000)
normalizer = Normalizer(copy=False)
lsa = make_pipeline(svd, normalizer)
Xnew = lsa.fit_transform(X)
model = KMeans(n_clusters=10, init='k-means++', max_iter=100, n_init=1, verbose=False)
model.fit(Xnew)
Run Code Online (Sandbox Code Playgroud) 我正在尝试使用R语言对类似文档进行聚类.作为第一步,我为我的文档集计算术语 - 文档矩阵.然后我为先前创建的术语 - 文档矩阵创建潜在的语义空间.我决定在我的实验中使用LSA,因为使用term-document矩阵进行聚类的结果非常糟糕.是否可以使用创建的LSA空间构建相异矩阵(使用余弦度量)?我需要这样做,因为我使用的聚类算法需要一个相异矩阵作为输入.
这是我的代码:
require(cluster);
require (lsa);
myMatrix = textmatrix("/home/user/DocmentsDirectory");
myLSAspace = lsa(myMatrix, dims=dimcalc_share());
Run Code Online (Sandbox Code Playgroud)
我需要从LSA空间构建一个相异矩阵(使用余弦测量),所以我可以调用聚类算法如下:
clusters = pam(dissimilartiyMatrix,10,diss=TRUE);
Run Code Online (Sandbox Code Playgroud)
有什么建议?
提前致谢!
我试图基于这篇devx文章中的示例在C++中实现一个非常基本的Windows密码过滤器
但是LSA没有加载DLL(msinfo32中加载的模块中没有任何内容),尽管设置了相应的reg条目并且DLL被复制到system32并重新启动.这发生在2003 x64和2008R2(显然也是x64).到目前为止,我已经搜索了stackoverflow并实现了所有建议.
我正在使用VS2012.它被设置为x64和/ MT(所以我不需要redist吧?)我确保正确引用.def文件.在依赖walker中,我可以看到正确导出的三个函数,尽管它说"由于隐式依赖模块中缺少导出函数,至少有一个模块具有未解析的导入".并声称kernel32.dll缺少一些导入(不确定是否相关).
如何调试LSA加载DLL时发生的事情?注意我不是开发人员所以上面的一些是相当模糊的,尤其是在编译/链接和导出函数时的行为.
非常感谢
lsa ×8
svd ×3
python ×2
r ×2
scikit-learn ×2
apply ×1
c++ ×1
colt ×1
dll ×1
jama ×1
k-means ×1
kerberos ×1
lda ×1
matrix ×1
nlp ×1
numpy ×1
text-mining ×1
topicmodels ×1
trigonometry ×1
visual-c++ ×1