如何获取 PDF 文件的字数?我认为我想要获得总字数的大多数 pdf 文件都嵌入了文本层,所以我不需要 OCR。
该任务来自于搜索一些已知大小的科学论文,例如 15000 字。大多数现代论文以pdf格式发表
在最近更新的谷歌 Chrome 浏览器(在稳定频道)中,有一个新的安全/隐私选项:
http://chrome.blogspot.com/2012/02/faster-browsing-safer-downloading.html
除了检查已知坏文件列表之外,Chrome 还会检查可执行文件(如“.exe”和“.msi”文件)。如果可执行文件与白名单不匹配,Chrome 会与 Google 联系以获取更多信息,例如您正在访问的网站是否包含大量恶意下载。
根据更详细的链接
如果文件不是来自已知来源,Chrome 会将主机的 URL 和 IP 以及其他元数据(例如文件的哈希值和二进制大小)发送给 Google。
如果我想让谷歌不知道我下载了哪些可执行文件怎么办?
如何禁用下载的 .exe 和 .msi 的发送到谷歌 URL 和哈希值?
我的问题是关于 Chrome 或 Chromium 浏览器的微调。它支持新一代 cookie:HTML5 LocalStorage 和 Databases。一些广告网站使用 LocalStorage 进行用户跟踪,其他一些网站也使用它。此外,chrome 插件(扩展)通常使用 localstorage 来保存设置。
我想完全禁用所有站点的 LocalStorage&DB 或以“询问用户”模式获取它。但我想使用使用 LocalStorage 和 DB 的扩展。
是否可以?
Ubuntu 中用户主目录的默认访问模式(例如 0755)是什么(例如,输出是什么ls -ld /home/*)?在其他主要的 linux 发行版(Debian、RedHat、Gentoo、Arch)中?
如何更改此默认设置?
PS:抱歉,我现在找不到 ubuntu 并自己测试一下。
我有数百个类似的大文件(每个 30 兆字节)要压缩。每对文件都有 99% 的相同数据(差异小于 1%),所以我希望存档不超过 40-50 兆字节。
单个文件可以从 30 MB 压缩到 13-15 MB(使用xz -1, gz -1, bzip2 -1),但是在压缩两个或更多文件时,我希望存档的大小为13-15MB + N*0.3MBN 是文件数。
当使用tar(创建实体存档)和xz -6(定义压缩字典大于一个文件 -更新 - 这还不够!)时,我仍然有大小为N*13MB.
我认为无论是gzip和bzip2不会帮助我,因为他们有字典小于1 MB,和我的焦油物流有重复,每30 MB。
如何使用标准工具在现代 Linux 中归档我的问题?
是否可以调整xz以快速压缩,但使用大于 30-60 MB 的字典?
更新:用tar c input_directory | xz --lzma2=dict=128M,mode=fast,mf=hc4 --memory=2G > compressed.tar.xz. 不确定必要的mf=hc4和--memory=2G选项;但是dict=128M将字典设置得足够大(大于一个文件),mode=fast并使该过程比-e.
有一台带有两个“Xeon(R) CPU X5550 @ 2.67GHz”CPU 的计算机。启用了超线程,看起来像16核系统,但实际上只有8个物理核。
我知道当启用超线程时,每个物理内核会被拆分为两个虚拟内核。我想知道,哪对虚拟核心共享一个物理核心,哪些不共享。或者,Linux 将如何(以什么顺序)枚举 HT 内核与真实内核相比。(枚举是为sched_setaffinity和taskset掩码完成的)。
我有一个/proc/cpuinfo来自系统的文件转储。
我认为有可能:
在这种情况下,困难的时刻是 CPU 有 2 个物理芯片(两个插槽),通常建议使用“物理 ID:”字段无济于事
中央处理器信息:
processor : 0
vendor_id : GenuineIntel
cpu family : 6
model : 26
model name : Intel(R) Xeon(R) CPU X5550 @ 2.67GHz
stepping : 5
cpu MHz : 2660.076
cache size : 8192 KB
physical id : 1
siblings : 8
core id : 0
cpu cores : …Run Code Online (Sandbox Code Playgroud) 我在使用 ls -l 列出某个目录时遇到问题:
$ ls -l ./directory
-????????? ? ? ? ? ? file001.txt
-????????? ? ? ? ? ? file002.txt
Run Code Online (Sandbox Code Playgroud)
只是 ls 效果很好:
$ ls ./directory
file001.txt file002.txt
Run Code Online (Sandbox Code Playgroud)
怎么了?
当我在页面上选择一些文本,显示在 Chrome 网络浏览器中,并用我的右键单击时,上下文菜单打开。它有三个选项:“Copy”、“Search %YOUR.SEARCH.ENGINE.NAME for '%SELECTED.TEXT%”和“Print...”;然后是有分隔符和“检查元素”。
我对选定文本的弹出菜单的常用用法是使用“搜索 %% 为 '%%'”,但有时我会错过正确的菜单项并单击“打印...”。然后打印预览打开(或操作系统打印对话框,如果--disable-print-preview添加了命令行选项。我没有打印机,我不需要打印一两个字,我只是想要
是否可以在 Google 版本的 Chrome 中禁用“打印...”项目?
如果不可能,我如何找到在 Chromium 中显示“打印...”的代码?
我有很多 50-100 MP 的彩色图像,我想在 linux 上查看。
例如,10000x17000 大小是典型的,但大多数图像查看器会因内存不足而失败。
文件格式为 png 或 jpg。
我想要的是能够部分和整体查看此类图像,并能够滚动图像。内存消耗低,因此没有完整的图像解压缩到内存中的位图。
有很多插件(我的意思不是用于查看 pdf 的浏览器插件,而是阅读器本身的插件,例如用于互联网访问、评论 pdf、pdf 中的 javascript、pdf 中的 3d 等等)预装了“Adobe Reader X”,快25了。有的很烦人,有的启动起来不安全(例如Adobe Multimedia插件允许PDF文件使用内置Flash,它在任何版本中通常已经过时且易受攻击;ECMAScript可能脆弱;评论很烦人,对我来说永远不会使用它)。
我想完全关闭一些 Adobe Reader X 插件。此外,如果 Adobe Reader 更新为较新版本时保存此设置,那将是完美的。
PS Adobe Reader X = Adobe Reader 10(更确切地说是 10.1 版);操作系统是 Windows(任何支持的 AR X 版本)
linux ×3
security ×2
adobe-reader ×1
archiving ×1
chmod ×1
chromium ×1
compression ×1
context-menu ×1
coreutils ×1
cpu ×1
image-viewer ×1
images ×1
ls ×1
pdf ×1
permissions ×1
plugins ×1
printing ×1
privacy ×1
tar ×1
ubuntu ×1
windows ×1
word-count ×1
xz ×1