相关疑难解决方法(0)

从Java调用网页上的Javascript

我的目标是连接到OWA页面(Microsoft Office Outlook Web Access - 基本上是电子邮件客户端)并登录,然后读取加载的新页面并查找收件箱计数.

要登录,我需要填写用户名和密码字段,并调用我知道名称和标题的某个javascript函数.

我如何能:

  1. 获取页面的DOM?
  2. 更新DOM以填写输入文本字段?
  3. 调用Javascript函数?
  4. 获取我重定向到的页面的新URL?

到目前为止,我可以使用以下Java代码连接到网页并加载其页面源:

                // open the connection to the welcome page
                callback.status("Opening connection...");
                URLConnection connection = null;
                try
                {
                    connection = url.openConnection();
                }
                catch(IOException ex)
                {
                    throw new Exception("I/O Problem while attempting URL connection");
                }

                connection.setDoInput(true);

                // open input stream to read website
                callback.status("Opening data stream...");
                InputStream input = null;
                try
                {
                    input = connection.getInputStream();
                }
                catch(IOException ex)
                {
                    throw new Exception("I/O Problem while opening data stream");
                }

                // …
Run Code Online (Sandbox Code Playgroud)

html javascript java dom

3
推荐指数
1
解决办法
1万
查看次数

Java中的HTML处理:将HTML转换为其他格式

好的,Java有很多HTML/XML解析器.我想要做的不仅仅是知道如何解析它.我想过滤内容并以合适的形式使用.

更准确地说,我想只保留文字和图像.但是,我想保留一些文本格式,例如:斜体,粗体,对齐等.

所有这一切都是因为我正在尝试实现一个转换器,它将html转换为我自己为自己的目的创建的特定格式.

有任何想法吗?当然,以前必须做过很多次.

java html-parsing

2
推荐指数
1
解决办法
1297
查看次数

JSF的服务器端HTML清理程序/清理

是否有任何JSF实用工具包或PrimeFaces/OmniFaces等库中可用的HTML清理程序或清理方法?

我需要通过p:编辑器清理用户的HTML输入,并使用escape="true"stackexchange样式显示安全的HTML输出.在显示HTML之前,我正在考虑将已清理的输入数据存储到数据库中,以便它可以安全使用,escape="true"并且XSS不是危险的.

jsf html-sanitizing primefaces omnifaces

2
推荐指数
1
解决办法
1126
查看次数

从Java调用Web服务/网站

为现有的GWT项目编写一些额外的类.我需要:

  • 请求URL
  • 读入返回的网页,以便执行操作.

返回的页面是非常简单的HTML,因此解析它应该不是很困难,我只需要先获取数据.

我如何用Java做到这一点?我最好看哪些套餐?

java gwt web-services

1
推荐指数
1
解决办法
1817
查看次数

使用java进行完整链接提取

我的目标是在从链接读取href属性时始终获取相同的字符串(在我的情况下是URI).示例:假设认为一个html文件它有somany链接,
a href="index.html">但基本域是http://www.domainname.com/index.html
a href="../index.html">但基域是http://www.domainname.com/dit/index.html
如何我可以正确获取所有链接意味着包括域名在内的完整链接?
我怎么能在java中这样做?
输入是HTML,即从一堆HTML代码中提取正确的链接

java

1
推荐指数
1
解决办法
2306
查看次数

如何使用Java轻松解析HTML作为服务消费?

我想解析一个HTML,如http://www.reddit.com/r/reddit.com/search?q=Microsoft&sort=top
,只想提取元素的文本<a class="title"

到目前为止我看过的选项看起来都像是矫枉过正(SAX,DOM遍历).

html java html-parsing web-scraping

1
推荐指数
1
解决办法
552
查看次数

从html源代码获取链接

我有一个字符串作为HTML源代码.我想只获取该字符串中的链接并将这些链接放入ArrayList中.如你所知,我想在两者之间找到一些字符串<a href="THE LINK I WANT">但是我想在不使用任何外部库的情况下这样做.如何使用String类和循环的简单算法来完成它?谢谢!

html java

1
推荐指数
1
解决办法
3829
查看次数

当JSTL escapeXml为false时,如何防止JavaScript注入(XSS)

我有一个人们可以添加他们的东西的表格.但是,在这种形式中,如果他们输入JavaScript而不是文本,他们可以轻松地注入他们想做的任何事情.为了防止它,我可以将escapeXml设置为true,但是普通的HTML也会被转义.

<td><c:out value="${item.textValue}" escapeXml="true" /></td>
Run Code Online (Sandbox Code Playgroud)

有没有其他方法来阻止JavaScript注入而不是将其设置为true?

javascript xss jsp jstl

0
推荐指数
1
解决办法
7948
查看次数

用Java解析HTML?

我想解析一个HTML文件,原因如下:

  1. 获取标签之间的内容.例如,在一对para标签之间
  2. 查找中断标记的出现次数
  3. 获取标记的属性.例如,要在FONT COLOR ="red">中获取COLOR的值

我需要在Java中这样做.我知道Jehrico解析器的基础知识.我该怎么做?

html java

0
推荐指数
1
解决办法
6063
查看次数

如何提取HTML标签以获取特定信息?

我需要从<title> </title>标签之间提取网页的标题.

还需要显示位于<body...></body>标签之间的所有文本,但身体外没有任何内容.

我不想要任何尖括号或任何返回的html数据.

html java string extraction

0
推荐指数
1
解决办法
1万
查看次数

如何使用正则表达式获取图像src

我有以下HTML标记,

<div id="subcontent_l">
    <p>
        <a href="/membership-packages/"><img height="202" width="644" alt="" src="http://74.52.72.231/wp-content/uploads/2010/06/banner1.jpg" title="banner1" class="aligncenter size-full wp-image-299">
        </a>
    </p>
    <p class="subc">Access to Guaranteed Healthcare Benefits</p>
    <p><a href="http://74.52.72.231/join-now"><img height="37" width="166" alt="" src="http://74.52.72.231/wp-content/uploads/2010/09/jn2.jpg" title="jn" class="alignleft size-full wp-image-229"></a></p>
</div>
Run Code Online (Sandbox Code Playgroud)

现在在上面的标记我想找到那个有src = jn2.jpg后跟图像的锚点找到这个后我的标记应该是这样的

期望的结果将是: -

<a href="http://74.52.72.231/join-now"><img height="37" width="166" alt="" src="http://74.52.72.231/wp-content/uploads/2010/09/jn2.jpg" title="jn" class="alignleft size-full wp-image-229"></a>
Run Code Online (Sandbox Code Playgroud)

我想用正则表达式做这个,我有一个正则表达式,里面找到所有的图像标签.我的表达是/[^<]*<a.*href[\s]*=[\s]*("[^"]*").*[\s]*<img.*\/a>$ 但不能找到我想要的相同.请帮我.

html regex

-1
推荐指数
1
解决办法
1901
查看次数