我的目标是连接到OWA页面(Microsoft Office Outlook Web Access - 基本上是电子邮件客户端)并登录,然后读取加载的新页面并查找收件箱计数.
要登录,我需要填写用户名和密码字段,并调用我知道名称和标题的某个javascript函数.
我如何能:
到目前为止,我可以使用以下Java代码连接到网页并加载其页面源:
// open the connection to the welcome page
callback.status("Opening connection...");
URLConnection connection = null;
try
{
connection = url.openConnection();
}
catch(IOException ex)
{
throw new Exception("I/O Problem while attempting URL connection");
}
connection.setDoInput(true);
// open input stream to read website
callback.status("Opening data stream...");
InputStream input = null;
try
{
input = connection.getInputStream();
}
catch(IOException ex)
{
throw new Exception("I/O Problem while opening data stream");
}
// …Run Code Online (Sandbox Code Playgroud) 好的,Java有很多HTML/XML解析器.我想要做的不仅仅是知道如何解析它.我想过滤内容并以合适的形式使用.
更准确地说,我想只保留文字和图像.但是,我想保留一些文本格式,例如:斜体,粗体,对齐等.
所有这一切都是因为我正在尝试实现一个转换器,它将html转换为我自己为自己的目的创建的特定格式.
有任何想法吗?当然,以前必须做过很多次.
是否有任何JSF实用工具包或PrimeFaces/OmniFaces等库中可用的HTML清理程序或清理方法?
我需要通过p:编辑器清理用户的HTML输入,并使用escape="true"stackexchange样式显示安全的HTML输出.在显示HTML之前,我正在考虑将已清理的输入数据存储到数据库中,以便它可以安全使用,escape="true"并且XSS不是危险的.
为现有的GWT项目编写一些额外的类.我需要:
返回的页面是非常简单的HTML,因此解析它应该不是很困难,我只需要先获取数据.
我如何用Java做到这一点?我最好看哪些套餐?
我的目标是在从链接读取href属性时始终获取相同的字符串(在我的情况下是URI).示例:假设认为一个html文件它有somany链接,
a href="index.html">但基本域是http://www.domainname.com/index.html
a href="../index.html">但基域是http://www.domainname.com/dit/index.html
如何我可以正确获取所有链接意味着包括域名在内的完整链接?
我怎么能在java中这样做?
输入是HTML,即从一堆HTML代码中提取正确的链接
我想解析一个HTML,如http://www.reddit.com/r/reddit.com/search?q=Microsoft&sort=top
,只想提取元素的文本<a class="title"
到目前为止我看过的选项看起来都像是矫枉过正(SAX,DOM遍历).
我有一个字符串作为HTML源代码.我想只获取该字符串中的链接并将这些链接放入ArrayList中.如你所知,我想在两者之间找到一些字符串<a href="THE LINK I WANT">但是我想在不使用任何外部库的情况下这样做.如何使用String类和循环的简单算法来完成它?谢谢!
我有一个人们可以添加他们的东西的表格.但是,在这种形式中,如果他们输入JavaScript而不是文本,他们可以轻松地注入他们想做的任何事情.为了防止它,我可以将escapeXml设置为true,但是普通的HTML也会被转义.
<td><c:out value="${item.textValue}" escapeXml="true" /></td>
Run Code Online (Sandbox Code Playgroud)
有没有其他方法来阻止JavaScript注入而不是将其设置为true?
我想解析一个HTML文件,原因如下:
我需要在Java中这样做.我知道Jehrico解析器的基础知识.我该怎么做?
我需要从<title> </title>标签之间提取网页的标题.
还需要显示位于<body...>和</body>标签之间的所有文本,但身体外没有任何内容.
我不想要任何尖括号或任何返回的html数据.
我有以下HTML标记,
<div id="subcontent_l">
<p>
<a href="/membership-packages/"><img height="202" width="644" alt="" src="http://74.52.72.231/wp-content/uploads/2010/06/banner1.jpg" title="banner1" class="aligncenter size-full wp-image-299">
</a>
</p>
<p class="subc">Access to Guaranteed Healthcare Benefits</p>
<p><a href="http://74.52.72.231/join-now"><img height="37" width="166" alt="" src="http://74.52.72.231/wp-content/uploads/2010/09/jn2.jpg" title="jn" class="alignleft size-full wp-image-229"></a></p>
</div>
Run Code Online (Sandbox Code Playgroud)
现在在上面的标记我想找到那个有src = jn2.jpg后跟图像的锚点找到这个后我的标记应该是这样的
期望的结果将是: -
<a href="http://74.52.72.231/join-now"><img height="37" width="166" alt="" src="http://74.52.72.231/wp-content/uploads/2010/09/jn2.jpg" title="jn" class="alignleft size-full wp-image-229"></a>
Run Code Online (Sandbox Code Playgroud)
我想用正则表达式做这个,我有一个正则表达式,里面找到所有的图像标签.我的表达是/[^<]*<a.*href[\s]*=[\s]*("[^"]*").*[\s]*<img.*\/a>$
但不能找到我想要的相同.请帮我.
java ×8
html ×6
html-parsing ×2
javascript ×2
dom ×1
extraction ×1
gwt ×1
jsf ×1
jsp ×1
jstl ×1
omnifaces ×1
primefaces ×1
regex ×1
string ×1
web-scraping ×1
web-services ×1
xss ×1