Теория и практика параллельных вычислений



Анализ эффективности - часть 2


Как результат, время выполнения операции передачи блоков матрицы A при использовании модели Хокни может оцениваться как

(7.11)

где – латентность, ? – пропускная способность сети передачи данных, а w есть размер элемента матрицы в байтах. В случае же когда топология строк процессорной решетки представляет собой кольцо, выражение для оценки времени передачи блоков матрицы A принимает вид:

Далее после умножения матричных блоков процессоры передают свои блоки матрицы В предыдущим процессорам по столбцам процессорной решетки (первые процессоры столбцов передают свои данные последним процессорам в столбцах решетки). Эти операции могут быть выполнены процессорами параллельно, и, тем самым, длительность такой коммуникационной операции составляет:

(7.12)

Просуммировав все полученные выражения, можно получить, что общее время выполнения алгоритма Фокса может быть определено при помощи следующих соотношений:

(7.13)

(напомним, что параметр q определяет размер процессорной решетки и ).




Содержание  Назад  Вперед