相关疑难解决方法(0)

从Java调用网页上的Javascript

我的目标是连接到OWA页面(Microsoft Office Outlook Web Access - 基本上是电子邮件客户端)并登录,然后读取加载的新页面并查找收件箱计数.

要登录,我需要填写用户名和密码字段,并调用我知道名称和标题的某个javascript函数.

我如何能:

获取页面的DOM？
更新DOM以填写输入文本字段？
调用Javascript函数？
获取我重定向到的页面的新URL？

到目前为止,我可以使用以下Java代码连接到网页并加载其页面源:

                // open the connection to the welcome page
                callback.status("Opening connection...");
                URLConnection connection = null;
                try
                {
                    connection = url.openConnection();
                }
                catch(IOException ex)
                {
                    throw new Exception("I/O Problem while attempting URL connection");
                }

                connection.setDoInput(true);

                // open input stream to read website
                callback.status("Opening data stream...");
                InputStream input = null;
                try
                {
                    input = connection.getInputStream();
                }
                catch(IOException ex)
                {
                    throw new Exception("I/O Problem while opening data stream");
                }

                // …

Run Code Online (Sandbox Code Playgroud)

html javascript java dom

War*_*lax

lucky-day

3
推荐指数

1
解决办法

1万
查看次数

Java中的HTML处理:将HTML转换为其他格式

好的,Java有很多HTML/XML解析器.我想要做的不仅仅是知道如何解析它.我想过滤内容并以合适的形式使用.

更准确地说,我想只保留文字和图像.但是,我想保留一些文本格式,例如:斜体,粗体,对齐等.

所有这一切都是因为我正在尝试实现一个转换器,它将html转换为我自己为自己的目的创建的特定格式.

有任何想法吗？当然,以前必须做过很多次.

java html-parsing

Alb*_*ore

2012 08-25

2
推荐指数

1
解决办法

1297
查看次数

JSF的服务器端HTML清理程序/清理

是否有任何JSF实用工具包或PrimeFaces/OmniFaces等库中可用的HTML清理程序或清理方法？

我需要通过p:编辑器清理用户的HTML输入,并使用escape="true"stackexchange样式显示安全的HTML输出.在显示HTML之前,我正在考虑将已清理的输入数据存储到数据库中,以便它可以安全使用,escape="true"并且XSS不是危险的.

jsf html-sanitizing primefaces omnifaces

Raj*_*pta

2016 01-28

2
推荐指数

1
解决办法

1126
查看次数

从Java调用Web服务/网站

为现有的GWT项目编写一些额外的类.我需要:

请求URL
读入返回的网页,以便执行操作.

返回的页面是非常简单的HTML,因此解析它应该不是很困难,我只需要先获取数据.

我如何用Java做到这一点？我最好看哪些套餐？

java gwt web-services

Fed*_*rer

2009 12-01

1
推荐指数

1
解决办法

1817
查看次数

我的目标是在从链接读取href属性时始终获取相同的字符串(在我的情况下是URI).示例:假设认为一个html文件它有somany链接,
a href="index.html">但基本域是http://www.domainname.com/index.html
a href="../index.html">但基域是http://www.domainname.com/dit/index.html
如何我可以正确获取所有链接意味着包括域名在内的完整链接？
我怎么能在java中这样做？
输入是HTML,即从一堆HTML代码中提取正确的链接

java

Ale*_*hew

2010 08-04

1
推荐指数

1
解决办法

2306
查看次数

如何使用Java轻松解析HTML作为服务消费？

我想解析一个HTML,如http://www.reddit.com/r/reddit.com/search?q=Microsoft&sort=top
,只想提取元素的文本<a class="title"

到目前为止我看过的选项看起来都像是矫枉过正(SAX,DOM遍历).

html java html-parsing web-scraping

geo*_*xis

2013 12-24

1
推荐指数

1
解决办法

552
查看次数

从html源代码获取链接

我有一个字符串作为HTML源代码.我想只获取该字符串中的链接并将这些链接放入ArrayList中.如你所知,我想在两者之间找到一些字符串<a href="THE LINK I WANT">但是我想在不使用任何外部库的情况下这样做.如何使用String类和循环的简单算法来完成它？谢谢!

html java

El3*_*1c4

lucky-day

1
推荐指数

1
解决办法

3829
查看次数

当JSTL escapeXml为false时,如何防止JavaScript注入(XSS)

我有一个人们可以添加他们的东西的表格.但是,在这种形式中,如果他们输入JavaScript而不是文本,他们可以轻松地注入他们想做的任何事情.为了防止它,我可以将escapeXml设置为true,但是普通的HTML也会被转义.

<td><c:out value="${item.textValue}" escapeXml="true" /></td>

Run Code Online (Sandbox Code Playgroud)

有没有其他方法来阻止JavaScript注入而不是将其设置为true？

javascript xss jsp jstl

par*_*oir

2010 11-18

0
推荐指数

1
解决办法

7948
查看次数

用Java解析HTML？

我想解析一个HTML文件,原因如下:

获取标签之间的内容.例如,在一对para标签之间
查找中断标记的出现次数
获取标记的属性.例如,要在FONT COLOR ="red">中获取COLOR的值

我需要在Java中这样做.我知道Jehrico解析器的基础知识.我该怎么做？

html java

Sai*_*S M

2016 07-23

0
推荐指数

1
解决办法

6063
查看次数

如何提取HTML标签以获取特定信息？

我需要从<title> </title>标签之间提取网页的标题.

还需要显示位于<body...>和</body>标签之间的所有文本,但身体外没有任何内容.

我不想要任何尖括号或任何返回的html数据.

html java string extraction

art*_*00n

2013 08-29

0
推荐指数

1
解决办法

1万
查看次数

如何使用正则表达式获取图像src

我有以下HTML标记,

<div id="subcontent_l">
    <p>
        <a href="/membership-packages/"><img height="202" width="644" alt="" src="http://74.52.72.231/wp-content/uploads/2010/06/banner1.jpg" title="banner1" class="aligncenter size-full wp-image-299">
        </a>
    </p>
    <p class="subc">Access to Guaranteed Healthcare Benefits</p>
    <p><a href="http://74.52.72.231/join-now"><img height="37" width="166" alt="" src="http://74.52.72.231/wp-content/uploads/2010/09/jn2.jpg" title="jn" class="alignleft size-full wp-image-229"></a></p>
</div>

Run Code Online (Sandbox Code Playgroud)

现在在上面的标记我想找到那个有src = jn2.jpg后跟图像的锚点找到这个后我的标记应该是这样的

期望的结果将是: -

<a href="http://74.52.72.231/join-now"><img height="37" width="166" alt="" src="http://74.52.72.231/wp-content/uploads/2010/09/jn2.jpg" title="jn" class="alignleft size-full wp-image-229"></a>

Run Code Online (Sandbox Code Playgroud)

我想用正则表达式做这个,我有一个正则表达式,里面找到所有的图像标签.我的表达是/[^<]*<a.*href[\s]*=[\s]*("[^"]*").*[\s]*<img.*\/a>$ 但不能找到我想要的相同.请帮我.

html regex

Soa*_*abh

2014 04-09

-1
推荐指数

1
解决办法

1901
查看次数