我试图抓取网站,更具体地Google Site使用ManifoldCF具有SAML认证和索引抓取的数据到Apache Solr实现.但是当我抓取URL时,它会让我302重定向到登录页面然后说RESPONSECODENOTINDEXABLE.
我不确定我是否正确认证.在manifoldCF中,我们有HTTP basic身份验证选项NTLM authentication和Session-based访问凭证身份验证方法.我使用的Session based身份验证方法更像是基于表单的身份验证而不是SAML身份验证.
有没有人使用带有SAML身份验证的manifoldCF来抓取网站?如果没有manifoldCF,有人能够通过Apache Nutch实现这一点,因为我担心,它也只提供HTTP基本Digest和NTLM身份验证.
任何见解都会有所帮助.如果有人认为可以轻松完成,可以提供有关该问题的更多信息.基本上,当我抓取https://sites.google.com/a/my-sub-domain.com时,它会重定向到SSO登录页面,并且抓取工具拒绝抓取任何更多,从而产生302错误.这是一个基于内联网的网站.
我试图从ManifoldCF连接到FileNet而没有任何成功.我得到的错误是
Connection status: Connection temporarily failed: Connection refused to host: 127.0.0.1; nested exception is: java.net.ConnectException: Connection refused: connect
Run Code Online (Sandbox Code Playgroud)
我的参数摘要如下.请注意,我将*放在我不确定的参数旁边,服务器名称和用户名都是虚构的
FileNet domain=test-my-filenet-domain *
User ID=myusername
Server protocol=http
Server WebServices location=wsi/FNCEWS40DIME *
Object store=Test OS
Document URL protocol=http
Document URL hostname=samplehost.mycomp.org
Document URL location=Workplace/Browse.jsp
Server port=7003
Server hostname=samplehost-wp.mycomp.org
Document URL port=443
Password=********
Run Code Online (Sandbox Code Playgroud)
我已经验证了FileNet CE ping页面已启动并在URL上运行http://samplehost.mycomp.org:7003/FileNet/Engine
这个经典的Workplace可以在https://samplehost-wp.mycomp.org/Workplace上找到.请注意,Workplace通过HTTPS,CE通过HTTP
有没有人使用Apache Manifold成功连接到FileNet仓库?