我花了我认为不合理的时间试图找到主题标签的实际格式.
据我所知,Twitter尚未发布.
我知道很多人都提出了正则表达式来解析它们,然而,你的lib的正则表达式不是我的lib的正则表达式,也许我不喜欢你的.
所以我问 - 有没有实际的官方规格?我不想要正则表达式的答案,我想要一个BNF或类似的东西.或者最低限度 - 完整的分隔符列表.
其他难点 - 从随机unicode消息(非英语)文本中获取它们也很重要.
注意:我非常了解实体,它们不适用于我的情况(存储在数据库中的Twitter消息数月).