小编Fak*_*ame的帖子

从大型文本/ HTML文件中提取URL

我有很多文本需要处理有效的URL.

输入是模糊的HTMLish,因为它主要是HTML.但是,它并不是真正有效的 HTML.

我一直试图用正则表达式来解决问题.

在您说(或可能是尖叫 - 我已经阅读其他HTML +正则表达式问题)之前" 使用解析器 ",您需要考虑一件事:
我使用的文件大小约为5 GB

我不知道任何解析器能够在不失败的情况下处理它,或者花费数天时间.此外,虽然文本内容主要是 html,但不一定是有效的 HTML,这意味着它需要一个非常宽容的解析器.最后,并非所有链接都必须在<a>标签中(有些可能只是明文).

鉴于我并不真正关心文档结构,是否有更好的替代方案WRT提取链接？

现在我正在使用正则表达式:(
\b(([\w-]+://?|www[.])[^\s()<>]+(?:\([\w\d]+\)|([^[:punct:]\s]|/)))在grep -E中)
但即便如此,我放弃了它让它运行了大约3个小时.

Regex引擎性能有显着差异吗？我正在使用MacOS的命令行grep.如果有其他兼容的实现具有更好的性能,那么这可能是一种选择.

我不太关心语言/平台,虽然MacOS /命令行会很好.

html regex large-files

Fak*_*ame

2012 02-25

5
推荐指数

1
解决办法

355
查看次数

使用 `attribute((packed))` 过度渴望结构打包警告？

我正在 32 位 ARM mcu（Atmel SAM4SD32C，Cortex-M4/ARMv7E-M 部件）上实现二进制日志系统，并且正在设计我的数据结构。我的目标是将日志格式描述为打包结构，并简单地将结构与字符数组结合起来，用于写入日志设备（在本例中是通过 FatFS 的 SD 卡）。

基本上，我有一个非常简单的结构：

typedef struct adc_samples_t
{
    int32_t adc_samples[6];

    uint64_t acq_time;

    int8_t  overrun;
    uint8_t padding_1;
    uint8_t padding_2;
    uint8_t padding_3;

} __attribute__((packed, aligned(4))) adc_sample_set;

Run Code Online (Sandbox Code Playgroud)

现在，我的架构是32位的，据我了解，访问任何成员/其他/那么该overrun成员应该是32位对齐的，因此不会有额外的开销。此外，该aligned(4)属性应强制结构体的任何实例化位于 32 位对齐的边界上。

然而，编译上面的结构定义会产生一堆警告：

        In file included from ../src/main.c:13:0:
<snip>\src\fs\fs-logger.h(10,10): warning: packed attribute causes inefficient alignment for 'adc_samples' [-Wattributes]
          int32_t adc_samples[6];
                  ^
<snip>\src\fs\fs-logger.h(12,11): warning: packed attribute causes inefficient alignment for 'acq_time' [-Wattributes]
          uint64_t acq_time;

Run Code Online (Sandbox Code Playgroud)

据我所知（我现在意识到这是一个很大的假设），我假设 32 位对齐是在 32 位臂上实现最佳组件定位所需的全部内容。~~奇怪的是，唯一/不/产生警告的成员是overrun和padding_X成员，我不明白其原因。 …~~

c gcc struct arm

Fak*_*ame

2016 11-17

5
推荐指数

1
解决办法

4169
查看次数

ARM 缓存行为：“清除”或“无效”是刷新缓存内存的正确命令吗？

这可能是一个愚蠢的问题，但我对 ARM CMSIS 缓存操作函数的措辞有些困惑。

ARM CMSIS 公开了可以“清除”缓存的函数、可以“使”缓存无效的函数，以及一组同时执行这两种操作的函数。

这些实际上做什么还不清楚，坦率地说，arm 文档让我感到困惑：

您可以在一次操作中使整个数据缓存（刷新数据缓存）无效，而无需回写脏数据。

您可以在不写回任何脏数据的情况下使单个行无效（刷新数据缓存单个条目）。

您可以逐行执行清洁。数据只有在遇到脏行时才通过写缓冲区写回，清除后的行保留在缓存中（clean data cache single entry）。您可以使用它们在数据缓存中的索引或它们在内存中的地址来清理缓存行。

您可以在一次操作中清理和刷新单个行，使用它们在数据缓存中的索引或它们在内存中的地址。

我的理解是，缓存中的“刷新”数据将导致其被写回主内存，而缓存中的“无效”数据将导致处理器在下次尝试访问相关数据时重新读取主内存。

然而，ARM 文档似乎暗示刷新操作实际上是一个失效操作，而我一直在想的是刷新操作实际上是一个“干净”操作。

我想我只是严重误解了文档。有人可以指出我正确的方向吗？

如果相关，我专门为皮质 M7 开发。

arm cortex-m

Fak*_*ame

lucky-day

5
推荐指数

1
解决办法

4304
查看次数

从 cython 直接调用 C++ 结构构造函数

我正在尝试包装一些使用带有构造函数的结构的 C++ 代码，但不知道如何包装。

C++结构：

typedef struct point_3d_t
{
    double x;
    double y;
    double z;

    point_3d_t(double x, double y, double z)
        : x(x)
        , y(y)
        , z(z)
        {}

} point_3d;

Run Code Online (Sandbox Code Playgroud)

Cython 包装器：

cdef extern from "./cppdar.hpp":
    ctypedef struct point_3d:
        point_3d(double, double, double)
        double x;
        double y;
        double z;

Run Code Online (Sandbox Code Playgroud)

现在，我希望能够通过类似的方式cdef point_3d p1(v, v, v)（从 cython 文件中）构造结构，但我似乎无法弄清楚如何让 cython 仅使用提供的构造函数。

我试过了：

cdef point_3d p1(v, v, v)
cdef point_3d p1 = point_3d(v, v, v)
cdef point_3d p1(0, 0, 0)
cdef point_3d …

python struct cython

Fak*_*ame

lucky-day

5
推荐指数

1
解决办法

1204
查看次数

在python中处理大型密集矩阵

基本上,在python中存储和使用密集矩阵的最佳方法是什么？

我有一个项目,可以在数组中的每个项目之间生成相似度量.

每个项目都是一个自定义类,并存储一个指向另一个类的指针和一个表示它与该类"紧密"的数字.

现在,它的工作效果非常好,约为8000件,之后失败并出现内存错误.
基本上,如果您假设每个比较使用〜30(看起来准确基于测试)字节来存储相似性,则意味着所需的总内存为:
numItems^2 * itemSize = Memory
因此内存使用量是基于项目数的指数.
在我的例子中,每个链接的内存大小约为30个字节,因此:
8000 * 8000 * 30 = 1,920,000,000 bytes, or 1.9 GB
这是单个线程的内存限制.

在我看来,必须有一种更有效的方法来做到这一点.我已经看过了memmapping,但是为了生成相似度值已经计算密集了,并且通过硬盘驱动器将其瓶颈似乎有点荒谬.

编辑
我看着numpy和scipy.不幸的是,它们也不支持非常大的阵列.

>>> np.zeros((20000,20000), dtype=np.uint16)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
MemoryError
>>>

Run Code Online (Sandbox Code Playgroud)

进一步编辑
Numpy似乎很受欢迎.然而,numpy不会真正做我想要的,至少没有另一个抽象层.

我不想存储数字,我想存储类的引用.Numpy支持对象,但这并不能解决数组大小问题.我长大numpy的,就像什么例子不工作.

有什么建议？

编辑好吧,我结束了刚刚重写所有的逻辑,使其不再存储任何冗余的值,从降低内存使用率O*n^2来O*((n*(n-1))/2).

基本上,整个事件是握手问题的一个版本,所以我已经从存储所有链接切换到每个链接的单个版本.

这不是一个完整的解决方案,但我通常没有足够大的数据集来溢出它,所以我认为它会成功.PyTables真的很有趣,但我不知道任何SQL,并且似乎没有任何好的传统切片或基于索引的方式来访问表数据.我将来可能会重新审视这个问题.

python windows-xp 32-bit matrix python-2.6

Fak*_*ame

2010 07-15

4
推荐指数

1
解决办法

5858
查看次数

在离散时间采样IIR滤波器系统中从采样率/截止频率转换为pi-弧度/采样

我正在使用Python和Numpy/Scipy进行一些数字滤波器工作.

我正在使用scipy.signal.iirdesign来生成我的滤波器系数,但它需要以我不熟悉的格式使用滤波器通带系数

wp, ws : float

  Passband and stopband edge frequencies, normalized from 0 to 1 (1 corresponds 
      to pi radians / sample). 
  For example:
  Lowpass: wp = 0.2, ws = 0.3
  Highpass: wp = 0.3, ws = 0.2

Run Code Online (Sandbox Code Playgroud)

(从这里)

我不熟悉数字滤波器(我来自硬件设计背景).在模拟环境中,我将确定所需的斜率和3db向下点,并从中计算组件值.

在这种情况下,如何获取已知的采样率,所需的转角频率和所需的滚降,并wp, ws从中计算出值？

(这可能更适合math.stackexchange.我不确定)

python signal-processing scipy digital-filter

Fak*_*ame

2011 01-15

4
推荐指数

1
解决办法

5828
查看次数