小编Mat*_*ias的帖子

如何在Python中循环遍历html-table-dataset

我是第一次在这里试图获取一些Python技能的海报; 请善待我:-)

虽然我不是编程概念的完全陌生人(我以前一直在乱用PHP),但过渡到Python对我来说有点困难.我想这主要与我缺乏大多数 - 如果不是全部 - 基本理解常见的"设计模式"(？)等事实有关.

话虽如此,这就是问题所在.我目前的项目的一部分涉及利用Beautiful Soup编写一个简单的刮刀.要处理的数据具有与下面列出的数据有些类似的结构.

<table>
    <tr>
        <td class="date">2011-01-01</td>
    </tr>
    <tr class="item">
        <td class="headline">Headline</td>
        <td class="link"><a href="#">Link</a></td>
    </tr>
    <tr class="item">
        <td class="headline">Headline</td>
        <td class="link"><a href="#">Link</a></td>
    </tr>
    <tr>
        <td class="date">2011-01-02</td>
    </tr>
    <tr class="item">
        <td class="headline">Headline</td>
        <td class="link"><a href="#">Link</a></td>
    </tr>
    <tr class="item">
        <td class="headline">Headline</td>
        <td class="link"><a href="#">Link</a></td>
    </tr>
</table>

Run Code Online (Sandbox Code Playgroud)

主要问题是我无法理解如何1)跟踪当前日期(tr-> td class ="date"),同时2)循环后续tr:s中的项目(tr class ="item" - > td class ="headline"和tr class ="item" - > td class ="link")和3)将处理后的数据存储在数组中.

此外,所有数据都将插入到数据库中,其中每个条目必须包含以下信息;