我知道如何与httplib的做到这一点,但我还需要设置用户代理,我敢肯定,你需要的urllib做到这一点.如何使用urllib获取http响应代码?
这类似于python中的合并排序中的问题 我正在重述,因为我不认为我在那里很好地解释了这个问题.
基本上我有一系列约1000个文件都包含域名.总共数据> 1gig所以我试图避免将所有数据加载到ram中.每个单独的文件都使用.sort(get_tld)进行排序,它根据TLD对数据进行排序(不是根据其域名排序.将所有.com排在一起,.orgs排在一起等)
典型的文件可能看起来像
something.ca
somethingelse.ca
somethingnew.com
another.net
whatever.org
etc.org
Run Code Online (Sandbox Code Playgroud)
但是显然更长.
我现在想要将所有文件合并为一个,保持排序,以便最终一个大文件仍然可以将所有.com放在一起,.orgs在一起等等.
我基本上想做的是
open all the files
loop:
read 1 line from each open file
put them all in a list and sort with .sort(get_tld)
write each item from the list to a new file
Run Code Online (Sandbox Code Playgroud)
我遇到的问题是我无法弄清楚如何循环使用open()不能使用的文件,因为我没有1个文件打开循环,我有很多.而且它们都是可变长度的,所以我必须确保通过最长的一个.
任何建议都非常感谢.
基本上我有一堆包含域名的文件.我使用.sort(key = func_that_returns_tld)根据TLD对每个文件进行了排序
既然我已经完成了我想要合并所有文件并最终得到一个大规模的排序文件.我想我需要这样的东西:
open all files
read one line from each file into a list
sort list with .sort(key=func_that_returns_tld)
output that list to file
loop by reading next line
Run Code Online (Sandbox Code Playgroud)
我在考虑这个问题吗?任何关于如何实现这一点的建议将不胜感激.
我想在python中这样做,但我很难过.我不能将整个文件加载到ram而不会变得不稳定,所以我想逐行阅读...任何建议将不胜感激.