什么压缩算法用于高度冗余的数据

Question

什么压缩算法用于高度冗余的数据

bee*_*bee 5 c++ compression image-compression

该程序使用套接字传输高度冗余的2D字节数组(如图像).虽然传输速率相对较高(10 Mbps),但阵列也是高度冗余的(例如,每行可能包含几个因此类似的值).我已经尝试过zlib和lz4并且结果很有希望,但我仍然想到一个更好的压缩方法,请记住它应该比lz4中的相对快.有什么建议？

Answer 1

Lem*_*ool 1

您可以创建自己的，如果行中的数据相似，您可以创建资源/索引映射，从而减少大量大小，如下所示

原始文件：
第1行：1212, 34,45,1212,45,34,56,45,56
第2行：34,45,1212,78,54,87,....

您可以创建一个唯一值列表，然后在替换中使用和索引，

34,45,54,56,78,87,1212

第一行：6,0,2,6,1,0,.....

这可能会节省 30% 或更多的数据传输量，但这取决于数据的冗余程度

更新

这里有一个简单的实现

std::set<int> uniqueValues
DataTable my2dData; //assuming 2d vector implementation
std::string indexMap;
std::string fileCompressed = "";

int Find(int value){
  for(int i = 0; i < uniqueValues.size; ++i){
     if(uniqueValues[i] == value) return i;
  }
  return -1;
}

//create list of unique values
for(int i = 0; i < my2dData.size; ++i){
  for(int j = 0; j < my2dData[i].size; ++j){
     uniqueValues.insert(my2dData[i][j]);
  }
}    

//create indexes
for(int i = 0; i < my2dData.size; ++i){
  std::string tmpRow = "";
  for(int j = 0; j < my2dData[i].size; ++j){
     if(tmpRow == ""){ 
       tmpRow = Find(my2dData[i][j]);     
     }
     else{
       tmpRow += "," + Find(my2dData[i][j]);
    }
  }
  tmpRow += "\n\r";
  indexMap += tmpRow;
}

//create file to transfer
for(int k = 0; k < uniqueValues.size; ++k){
  if(fileCompressed == ""){ 
       fileCompressed = "i: " + uniqueValues[k];     
     }
     else{
       fileCompressed += "," + uniqueValues[k];
    }
}
fileCompressed += "\n\r\d:" + indexMap;

Run Code Online (Sandbox Code Playgroud)

现在在接收端，您只需执行相反的操作，如果该行以“i”开头，您将获得索引，如果该行以“d”开头，您将获得数据

归档时间：	12 年，2 月前
查看次数：	506 次
最近记录：	12 年，2 月前