Ale*_*ysh 10 nlp steganography
我有160位随机数据.
只是为了好玩,我想生成伪英语短语来"存储"这些信息.我希望能够从短语中恢复这些信息.
注意:这不是一个安全问题,我不在乎别人是否能够恢复信息甚至检测到它是否存在.
更好的短语的标准,从最重要到最不重要:
目前的方法,建议在这里:
取三个1024个名词,动词和形容词列表(选择最受欢迎的名词).通过以下模式生成短语,为每个单词读取20位:
Noun verb adjective verb, Noun verb adjective verb, Noun verb adjective verb, Noun verb adjective verb.
现在,这似乎是一个很好的方法,但这句话有点太长,有点太沉闷.
我在这里找到了一个单词集(部分语音数据库).
经过一些特别的过滤后,我计算出这个语料库大约含有
这让我可以使用
对于名词 - 动词 - 形容词 - 动词模式,这在短语中每个"句子"给出57位.这意味着,如果我将使用我可以从该语料库中获得的所有单词,我可以生成三个句子而不是四个(160 /57≈2.8).
Noun verb adjective verb, Noun verb adjective verb, Noun verb adjective verb.
还有点太长而且沉闷.
任何提示我如何改进它?
我看到我可以尝试:
尝试在编码之前以某种方式压缩我的数据.但由于数据是完全随机的,只有一些短语会更短(而且,我猜,不是很多).
改进短语模式,这样看起来会更好.
使用几种模式,使用短语中的第一个单词以某种方式指示将来解码使用的模式.(例如,使用最后一个字母甚至单词的长度.)根据数据的第一个字节选择模式.
......我对英语不是很好,可以提出更好的短语模式.有什么建议?
......我想,我需要比现在更好的词语语料库.任何提示我可以在哪里得到合适的?
我会考虑将副词添加到您的列表中。这是我想出的一个模式:
<Adverb>, the
<adverb> <adjective>, <adverb> <adjective> <noun> and the
<adverb> <adjective>, <adverb> <adjective> <noun>
<verb> <adverb> over the <adverb> <adjective> <noun>.
Run Code Online (Sandbox Code Playgroud)
这可以编码 181 位数据。我使用不久前根据 WordNet 数据制作的列表得出了这个数字(可能有点偏差,因为我包含了复合词):
例句: “浸泡,习惯性的愚蠢,社会投机的样本和无畏的灾难性的,在某个互惠的宏观世界天使般地排除在不可避免的间歇性被子上。”
| 归档时间: |
|
| 查看次数: |
441 次 |
| 最近记录: |