我正在循环一个我知道长度的大文件,但由于它太大而无法放入内存中,因此我会懒得处理.我希望能够使用tqdm来跟踪我在文件中的进度,但由于它无法从我正在使用的生成器中获取示例总数,因此它显示的唯一内容是估计的迭代/第二.有没有办法告诉tqdm它将循环多少元素,所以我可以得到一些其他的统计数据?
我正在尝试使用Keras进行二进制分类问题,使用该ImageDataGenerator.flow_from_directory方法生成批处理.但是,我的类非常不平衡,比如在一个类中比另一个类大约多8倍或9倍,导致模型卡住为每个示例预测相同的输出类.有没有办法在flow_from_directory我的小班上设置过采样,或者在每个纪元期间从我的大班中设置欠采样?现在,我刚刚在我的小班级中创建了每个图像的多个副本,但我希望有更多的灵活性.
我有一个太大而无法放入内存的文件.shuf似乎在RAM中运行,并且sort -R不会随机播放(相同的行最终彼此相邻;我需要对所有行进行洗牌).除了推出自己的解决方案之外还有其他选择吗?
我有一个目录结构,如:
Folder_in_PYTHONPATH/
??? Package1
? ??? __init__.py
? ??? src
? ? ??? Class1.py
? ? ??? Class2.py
? ? ??? __init__.py
? ??? test
? ??? testfile.py
??? Package2
? ??? __init__.py
? ??? src
? ? ??? Class1.py
? ? ??? Class2.py
? ? ??? __init__.py
? ??? test
? ??? test1.py
? ??? test2.py
.
.
.
Run Code Online (Sandbox Code Playgroud)
当我从这个文件夹导入东西时,我需要总是输入
import Package1.src.Class1
Run Code Online (Sandbox Code Playgroud)
有什么方法可以设置我的,__init__.py以便我可以输入
import Package1.Class1
Run Code Online (Sandbox Code Playgroud)
反而?