相关疑难解决方法(0)

获取维基百科文章的第一行

我有一篇维基百科文章,我想从文章中获取第一行z(或前x个字符,或前y个字,无关紧要).

问题:我可以获得源Wiki-Text(通过API)或解析的HTML(通过直接HTTP-Request,最终在打印版本上)但是如何找到显示的第一行?Normaly源(html和wikitext)从信息框和图像开始,第一个要显示的真实文本在代码中的某处.

例如: 维基百科上的阿尔伯特爱因斯坦(印刷版).看看代码,第一个真正的文本行"Albert Einstein(发音为/ælbərtaɪnstaɪn/;德语:[albɐtaɪ̯nʃtaɪ̯n]; 1879年3月14日至1955年4月18日)是一位理论物理学家." 不是一开始.这同样适用于Wiki-Source,它以相同的信息框开头,依此类推.

那么你将如何完成这项任务呢?编程语言是java,但这应该不重要.

我想到的解决方案是使用xpath查询,但是这个查询处理所有边界情况会相当复杂.[更新]没有那么复杂,请参阅下面的解决方案![/ update]

谢谢!

parsing wikipedia wikipedia-api

12
推荐指数
2
解决办法
1万
查看次数

标签 统计

parsing ×1

wikipedia ×1

wikipedia-api ×1