根据 smartd 的说法,我有一个磁盘,其中包含一些未决的不可读扇区。使磁盘重新映射它们并阻止 smartd 抱怨的最简单方法是什么?
今天,我每小时得到两个:
9 月 10 日 23:15:35 hylton smartd[3353]:设备:/dev/sdc,1 当前不可读(待处理)扇区
该系统是运行 Ubuntu Linux 9.10 (jaunty) 的 x86 系统。该磁盘是 LVM 组的一部分。这是 smartctl 识别磁盘的方式:
型号系列:Western Digital Caviar 第二代串行 ATA 系列 设备型号:WDC WD5000AAKS-00TMA0 序列号:WD-WCAPW4207483 固件版本:12.01C01 用户容量:500,107,862,016 字节
我有一个lstopo --output-format txt -v --no-io > lstopo.txt集群中 8 核节点的输出,它是https://dl.dropboxusercontent.com/u/13029929/lstopo.txt
该文件是节点的文本图。它对于我笔记本电脑的 Ubuntu 上的终端和 gedit 来说太宽了,它的一些右侧被我的笔记本电脑移动到左侧并与绘图的左侧部分重叠。我想知道如何正确查看文件?(补充:我发现我可以通过上传到dropbox并在Firefox中打开来正确查看绘图,这可以正确缩小绘图。但是在Firefox中打开本地文件会错误显示虚线“-”,我不知道为什么? 除了火狐,还有什么软件可以运行吗?)
每个核心“Core P#”中的“PU P#”是什么意思?为什么他们的数字不一样?
“L1i”是指L1指令缓存,“L1d”是L1数据缓存吗?
为什么L2和L3缓存没有指令缓存和数据缓存的区别?这对计算机来说很常见吗?
“Socket P#”是什么意思?“套接字”是否用于连接 L3 缓存和主内存?
“NUMANode P# (16GB)”是什么意思?是主存芯片吗?
图中是否有四个内核共享一个主存芯片,其他四个内核共享另一个主存芯片?
节点中的所有8个内核都没有共享一个主内存吗?那么节点是不是就像一个分布式系统,有两台四核计算机,它们之间没有共享内存?两个4核组怎么交流?
“Machine (32GB)”是指6中提到的两个主存芯片的大小之和吗?
我有一台带有Intel D2700DC 主板的旧机器。我将它用作一些副项目的家庭服务器。我安装了 Ubuntu 32 位,但最近发现它的嵌入式 D2700DC CPU 实际上是一个 64 位处理器。
我的问题是在那里重新安装 Ubuntu 64 位而不是 32 位是否值得?我有 3GB 内存,看起来这个硬件有 4GB 的限制。
你认为它会在某些方面更快,或者我可以从安装 64 位中获得什么其他好处?我看到的一个原因是 Ubuntu 在上一个主要版本中停止支持 32 位,而我仍然在那里使用 Ubuntu 18.04。
我们在工作时使用符合人体工程学的键盘,但我并不完全习惯。我似乎在进去的时候一直按大写锁定键vim,它开始烦人了。如何禁用此键,和/或更改为另一个键?
我必须从命令中hcitool dev 只提取蓝牙加密狗的 MAC 地址。
的输出hcitool dev是:
Devices:
hci0 xx:xx:xx:xx:xx:xx
Run Code Online (Sandbox Code Playgroud)
我将此输出写入文件并尝试使用以下内容获取信息awk:
hcitool dev > /home/pi/mario/BT.txt
awk ' { print $2 } ' /home/pi/mario/BT.txt
Run Code Online (Sandbox Code Playgroud)
输出还包含第一行,它是一个空单元格:
xx:xx:xx:xx:xx:xx
我怎样才能推迟第一个细胞?
WWN =全球通用名称
它有“序列号”,9WJxxxxx,它是八个字符。它的 WWN 5000C5002E47xxxx 是 16 个字符。两者都印在硬盘驱动器的标签上。
它有 12 个字符的“序列号”WMC5D0Dxxxxx。它有 16 个字符的 WWN 50014EE003Fxxxxx。
它有“序列号”KWJTxxx,也是八个字符。它有 WWN……我不知道;它没有打印在标签上,也没有插入系统进行查找。
对于库存,我们通常会记下并跟踪以下内容,这些内容始终可以从驱动器上的标签中收集:
当库存表显示任何硬盘驱动器时,问题显然会在 1、2、3 年后出现。您非常确定它在正在运行的服务器中,但您不想关闭服务器以拉动硬盘驱动器来读取标签。
如何获得与标签上的内容相对应的驱动器序列号?
udevadm info --query=all --name=/dev/sda有ID_SERIAL,但那是 WWN。我们不希望另一个字段将 WWN 的 16 个字符作为标识符进行跟踪……而且我已经讨厌写下 WD 驱动器的长序列号。
Linux中有没有办法提取驱动器的序列号?
我相信这是可能的,因为多年前我们一直使用的 RAID 存储管理器 GUI …
这不一定是 Linux 问题,但无论如何我都会在这里问它。我使用的工作站主要用于训练深度学习和机器学习模型。我在 CPU 和 GPU 上运行训练代码。
\nCPU:AMD Ryzen 9 5950X 16 核处理器
\n显卡:NVIDIA GeForce RTX 3090
\n操作系统:Ubuntu 22.04 LTS
\n我使用的库(PyTorch、XGBoost、LightGBM 等)大量利用交换内存来加载数据。在处理大型数据集时,交换内存会缓慢积累并超过限制 (2GB)。当这种情况发生时,所有核心都会变得疯狂,CPU 会过热。几秒钟后工作站自行关闭。
\n我是一名数据科学家,但我不擅长硬件。我花了几周时间才弄清楚为什么我的工作站总是自动关闭。我必须找到一种方法来防止这种情况发生,因为我无法再完成自己的任务了。您有什么建议?
\n向您提供更多详细信息,这在 3-4 个月前还没有发生。最近才开始。
\n编辑:添加了 nvidia-smi 和传感器输出,同时训练两个模型(UNet 和 YOLOv6)。
\n英伟达-SMI
\n+-----------------------------------------------------------------------------+\n| NVIDIA-SMI 510.73.05 Driver Version: 510.73.05 CUDA Version: 11.6 |\n|-------------------------------+----------------------+----------------------+\n| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |\n| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |\n| | | MIG M. |\n|===============================+======================+======================|\n| 0 …Run Code Online (Sandbox Code Playgroud) 在过去的一周里,我的服务器(运行 Debian Jessie)重启了两次。在 syslog 中,我在每次重新启动之前都看到了这一点,在其他点上没有:
Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]: Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]: fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] …Run Code Online (Sandbox Code Playgroud)