在TensorFlow中,我们可以利用TFrecords格式来管理大规模的数据集,这样可以大大提高数据读取效率。在本文中,我们将介绍如何使用TFrecords格式来存储和读取不同大小的图片。
首先,我们需要将图片转换成TFrecords格式。这一步可以使用Python中的TFrecords API来完成。具体步骤如下:
1.读取图片并进行resize处理
2.将图片转换成二进制格式
3.将二进制数据写入到TFrecords文件中
如下是Python代码实现:
import tensorflow as tf
from PIL import Image
import os
def create_TFrecords(image_lists, image_dir, output_dir, size=(224, 224)):
os.makedirs(output_dir, exist_ok=True)
i = 0
with tf.python_io.TFRecordWriter(os.path.join(output_dir, 'train.tfrecords')) as write:
for class_name, class_list in image_lists.items():
for image_name in class_list:
image_path = os.path.join(image_dir, class_name, image_name)
with Image.open(image_path) as img:
img = img.resize(size)
img_raw = img.tobytes()
example = tf.train.Example(
features=tf.train.Features(
feature={
'image_raw': tf.train.Feature(bytes_list=tf.train.BytesList(value=[img_raw]))
}
)
)
write.write(example.SerializeToString())
i += 1
if i % 1000 == 0:
print('Processed {} images.'.format(i))
print('Total processed {} images.'.format(i))
接下来,我们可以使用以下代码来读取TFrecords文件,将图片还原成原来的大小:
import tensorflow as tf
from PIL import Image
def read_TFrecords(file_path):
record_iterator = tf.python_io.tf_record_iterator(path=file_path)
for string_record in record_iterator:
example = tf.train.Example()
example.ParseFromString(string_record)
img_raw = example.features.feature['image_raw'].bytes_list.value[0]
with Image.frombytes('RGB', (224, 224), img_raw) as img:
img.show()
这里需要注意的是,在读取图片时,需要提供图片的原始大小,否则无法正确还原图片。
综上所述,我们可以利用TFrecords格式来存储和读取不同大小的图片,从而提高数据读取效率。