降价的字数统计?

nau*_*101 7 linux markdown word-count pandoc

有没有办法通过命令行在 Markdown(或者更好,Pandoc Markdown)中获取自然语言单词的字数?可能只是wc用来得到一个非常粗略的估计,但wc很幼稚,并将任何被空白包围的东西都算作一个词。这包括诸如标题格式、项目符号和链接中的 URL 之类的内容。

理想的做法是删除所有降价格式(如果可能,包括 Pandoc 引用),然后将其传递给wc,但我找不到这样做的方法,因为pandoc纯文本输出格式仍然包含大量降价造型。

小智 1

一个有点手动的解决方案:

  1. 用于pandoc将 Markdown 文件转换为 MS Word 文档 ( *.docx) 或 OpenOffice/LibreOffice Writer 文档 ( *.odt)
  2. 在 LibreOffice 1中打开该文档
  3. 选择所有内容 ( ctrl+ a)
  4. 菜单Tools>Word Count

1 OpenOffice 可能会以同样的方式工作,但我还没有测试过。