标签: manifoldcf

如何使用ManifoldCF或nutch抓取具有SAML身份验证的网站?

我试图抓取网站,更具体地Google Site使用ManifoldCF具有SAML认证和索引抓取的数据到Apache Solr实现.但是当我抓取URL时,它会让我302重定向到登录页面然后说RESPONSECODENOTINDEXABLE.

我不确定我是否正确认证.在manifoldCF中,我们有HTTP basic身份验证选项NTLM authenticationSession-based访问凭证身份验证方法.我使用的Session based身份验证方法更像是基于表单的身份验证而不是SAML身份验证.

有没有人使用带有SAML身份验证的manifoldCF来抓取网站?如果没有manifoldCF,有人能够通过Apache Nutch实现这一点,因为我担心,它也只提供HTTP基本DigestNTLM身份验证.

任何见解都会有所帮助.如果有人认为可以轻松完成,可以提供有关该问题的更多信息.基本上,当我抓取https://sites.google.com/a/my-sub-domain.com时,它会重定向到SSO登录页面,并且抓取工具拒绝抓取任何更多,从而产生302错误.这是一个基于内联网的网站.

solr nutch saml full-text-indexing manifoldcf

18
推荐指数
1
解决办法
907
查看次数

Apache ManifoldCF.无法创建与FileNet的存储库连接

我试图从ManifoldCF连接到FileNet而没有任何成功.我得到的错误是

Connection status:  Connection temporarily failed: Connection refused to host: 127.0.0.1; nested exception is: java.net.ConnectException: Connection refused: connect
Run Code Online (Sandbox Code Playgroud)

我的参数摘要如下.请注意,我将*放在我不确定的参数旁边,服务器名称和用户名都是虚构的

FileNet domain=test-my-filenet-domain *
User ID=myusername
Server protocol=http
Server WebServices location=wsi/FNCEWS40DIME *
Object store=Test OS
Document URL protocol=http
Document URL hostname=samplehost.mycomp.org
Document URL location=Workplace/Browse.jsp
Server port=7003
Server hostname=samplehost-wp.mycomp.org
Document URL port=443
Password=********
Run Code Online (Sandbox Code Playgroud)

我已经验证了FileNet CE ping页面已启动并在URL上运行http://samplehost.mycomp.org:7003/FileNet/Engine

这个经典的Workplace可以在https://samplehost-wp.mycomp.org/Workplace上找到.请注意,Workplace通过HTTPS,CE通过HTTP

有没有人使用Apache Manifold成功连接到FileNet仓库?

filenet manifoldcf

7
推荐指数
1
解决办法
531
查看次数

标签 统计

manifoldcf ×2

filenet ×1

full-text-indexing ×1

nutch ×1

saml ×1

solr ×1