你怎么拼写检查网站?

Lia*_*iam 28 spell-checking

我知道拼写检查不完美,但随着你的文字数量的增加,它们会变得更有用.如何拼写检查有数千页的网站?

编辑:由于复杂的服务器端处理,我可以获取页面的唯一方法是通过HTTP.它也不能外包给第三方.

编辑:我有一个网站上我需要检查的所有网址的列表.

Lia*_*iam 7

Lynx似乎善于获取我需要的文本(正文内容和替代文本)并忽略我不需要的内容(嵌入式Javascript和CSS).

lynx -dump http://www.example.com
Run Code Online (Sandbox Code Playgroud)

它还列出了页面中的所有URL(转换为其绝对形式),可以使用grep过滤掉:

lynx -dump http://www.example.com | grep -v "http"
Run Code Online (Sandbox Code Playgroud)

file://如果我使用wget镜像站点,URL也可以是local().

我将编写一个脚本,使用此方法处理一组URL,并将每个页面输出到单独的文本文件.然后,我可以使用现有的拼写检查解决方案来检查文件(或组合所有小文件的单个大文件).

这将忽略标题和元元素中的文本.这些可以单独拼写检查.

  • 您可以使用wget -R以递归方式获取所有网页.然后,在本地文件上运行lynx,并从那里进行拼写检查. (2认同)

Ant*_*Roy 1

您可以使用结合 wget 和 aspell 的 shell 脚本来完成此操作。您心中有一个编程环境吗?

我个人会使用 python 和 Beautiful Soup 来从标签中提取文本,并通过 aspell 传输文本。