如何从网站html获取句子

Yal*_*ber 0 php

您好我想从html文档中提取所有句子.我该怎么做?因为有很多条件,比如首先我们需要剥离标签,然后我们需要识别可能结束的句子.要么 ?要么 !也可能有电子邮件地址和网站地址等条件.在他们中我们如何制作这样的剧本?

phi*_*hag 6

它叫做编程;).首先将任务划分为更简单的子任务并实现它们.例如,在您的情况下,我将设计这样的程序:

  1. 下载并解析HTML文档
  2. 提取所有文字内容(特别注意<script><style>元素)
  3. 将文本内容合并为一个长字符串
  4. 解决在字符串中查找句子的问题(可能只是解析,直到你在".!?"中找到一个停止字符,然后开始一个新句子)
  5. 丢弃误报(如空句,数字句等)