Перейти до вмісту

Ефект "memory wall"


Повідомлень в темі: 35

#1 Nomad

    Старійшина

  • Користувачі
  • PipPipPipPipPipPipPipPipPipPip
  • 3581 повідомлень

Відправлено 09.12.2008 – 14:45

  • 35
В наш час уже нікого не здивуєш багатоядерними процессорами- двоядерні Core 2 Duo, Athlon X2, трьохядерні та чотирьохядерні(AMD Phenom X3(X4) та Core 2 Quad), а від недавньої пори- процесори сімейства Nehalem від Intel, які за допомогою технології SMT можуть використовувати у обчисленнях до восьми ядер.
Intel давно говорить про те що теоретично можна чекати випуску в найближчому майбутньому x86-подібних процесорів з кількістю ядер 16, 32 або навіть 64!
Але на шляху в цих технологіях стоять дуже багато перепон(мала оптимізація програмного коду під багатопоточність, висока вартість багатоядерних платформ і т.д.). І ось схоже з'явилася oе одна проблема- так званий ефект "memory wall", який може серйозно пошкодити розвитку багатоядерних технологій.
Стаття в журналі IEEE Spectrum
Новина на itc
Прикріплений файл  amdphenom.jpg   32.25К   0 Кількість завантажень:
Прикріплений файл  core2duo.jpg   67.77К   0 Кількість завантажень:
Прикріплений файл  12_intel_core_i7.jpg   29.05К   1 Кількість завантажень:

Повідомлення відредагував phobos: 09.12.2008 – 15:30


#2 zav

    зрадник

  • Користувачі
  • PipPipPipPipPipPipPipPipPipPip
  • 9565 повідомлень
  • Стать:Чоловік
  • Місто:Київ

Відправлено 09.12.2008 – 15:37

Проблема розміщення кеш-пам'яті ядра поряд з ядром - це хіба проблема? Так, тимчасове ускладення.
  • 0

#3 Nomad

    Старійшина

  • Користувачі
  • PipPipPipPipPipPipPipPipPipPip
  • 3581 повідомлень

Відправлено 09.12.2008 – 16:03

Перегляд дописуzav (9.12.2008 15:37) писав:

Проблема розміщення кеш-пам'яті ядра поряд з ядром - це хіба проблема? Так, тимчасове ускладення.
Взагалі не про кеш мова йде а про оперативну память
Кеш до речі (і першого і другого, і навіть третього рівня) з часів процесорів Пентіум 2 працює на частоті процесора, тобто інтегрований на підкладку процесора
  • 0

#4 mim

    Генеральний писар

  • Користувачі
  • PipPipPipPipPipPipPipPipPip
  • 680 повідомлень
  • Стать:Чоловік
  • Місто:Київ

Відправлено 09.12.2008 – 16:53

гарна стаття на цю тему http://habrahabr.ru/...elopment/43905/ , раджу почитати

там про те, що пам’ять працює набагато повільніше, ніж потрібно процесору. І це велика проблема, бо як частоту не збільшуй, скільки ядер не став, а все одно доводиться чекати. Її намагаються лікувати збільшенням кешу (за даними статті в Itanium2 кеш займає 85%) але виходить не дуже.
  • 0

#5 FT232BM

    私は人々嫌い

  • Користувачі
  • PipPipPipPipPipPipPipPipPipPip
  • 3435 повідомлень
  • Стать:Чоловік
  • Місто:Київ->НТУУ "КПІ"

Відправлено 09.12.2008 – 19:14

В час, коли мова йде про одноатомні транзистори, технологія вже в ангстремах вимірюється думаю, що з пам‘яттю проблем не буде. Всі ми повернемось до старого доброго ОЗП на тригерах.
  • 0

#6 zav

    зрадник

  • Користувачі
  • PipPipPipPipPipPipPipPipPipPip
  • 9565 повідомлень
  • Стать:Чоловік
  • Місто:Київ

Відправлено 09.12.2008 – 20:22

Перегляд дописуNomad (9.12.2008 16:03) писав:

Взагалі не про кеш мова йде а про оперативну память
А, пам'ять, а. Ну, збільшити частоту шини, чи ширину її - не така вже й проблема.
p.s. Забезпечити кожному ядру гарантовану смугу передачі даних додаванням трохи зайвих контактів на рознімі процесора.

Повідомлення відредагував zav: 09.12.2008 – 20:24

  • 0

#7 deepfish

    Писар

  • Користувачі
  • PipPipPipPipPipPipPipPip
  • 432 повідомлень
  • Стать:Чоловік
  • Місто:Рівненщина

Відправлено 09.12.2008 – 21:01

Перегляд дописуzav (9.12.2008 21:22) писав:

А, пам'ять, а. Ну, збільшити частоту шини, чи ширину її - не така вже й проблема.
p.s. Забезпечити кожному ядру гарантовану смугу передачі даних додаванням трохи зайвих контактів на рознімі процесора.

Тоді на кожне ядро повинна бутис своя пам'ять і у всіх їх повинні дублюватись дані, виходить так???
Проблема саме в синхроніхації.
  • 0

#8 Nomad

    Старійшина

  • Користувачі
  • PipPipPipPipPipPipPipPipPipPip
  • 3581 повідомлень

Відправлено 09.12.2008 – 21:10

Перегляд дописуzav (9.12.2008 20:22) писав:

А, пам'ять, а. Ну, збільшити частоту шини, чи ширину її - не така вже й проблема.
p.s. Забезпечити кожному ядру гарантовану смугу передачі даних додаванням трохи зайвих контактів на рознімі процесора.
Проблема в латентності памяті а не в ширині смуги пропускання
Хоча б почитали для пристойності ті статті :)
  • 0

#9 FT232BM

    私は人々嫌い

  • Користувачі
  • PipPipPipPipPipPipPipPipPipPip
  • 3435 повідомлень
  • Стать:Чоловік
  • Місто:Київ->НТУУ "КПІ"

Відправлено 09.12.2008 – 21:19

Перегляд дописуzav (9.12.2008 20:22) писав:

А, пам'ять, а. Ну, збільшити частоту шини, чи ширину її - не така вже й проблема.
p.s. Забезпечити кожному ядру гарантовану смугу передачі даних додаванням трохи зайвих контактів на рознімі процесора.
Дуже вже велика розкіш для розробника збільшити число виводів, кожен виведений контакт процесора може принести великі збитки компанії. Термокомпресійна приварка один з тихмоментів, коли йде найбільший брак. До відома зараз брак на виробництві — ~20%. І це дуже непоганий результат, говорячи про вихід працездатних в 50% в минулому столітті. Одним з найбільш важливих параметрів, що впливає на ціну є число виводів. Адже крім технологічного процесу і розміру кристаликів мікрухи нічим не відрізняються. Іншими словами рівень складності процесора виробництву до дупи.

Перегляд дописуNo_name (9.12.2008 21:01) писав:

Тоді на кожне ядро повинна бутис своя пам'ять і у всіх їх повинні дублюватись дані, виходить так???
Проблема саме в синхроніхації.
Пан чув про паралельну вибірку? Хто сказав, що не можна поставити декілька дешифраторів на масив комірок данних? Досить хороший вихід.
  • 0

#10 Nomad

    Старійшина

  • Користувачі
  • PipPipPipPipPipPipPipPipPipPip
  • 3581 повідомлень

Відправлено 09.12.2008 – 21:36

Цікава стаття про альтернативну архітектуру процесорів
http://www.morepc.ru...c300820063.html
  • 0

#11 deepfish

    Писар

  • Користувачі
  • PipPipPipPipPipPipPipPip
  • 432 повідомлень
  • Стать:Чоловік
  • Місто:Рівненщина

Відправлено 09.12.2008 – 21:47

чув, пан чув. :)
просто два ядра то не так складно як 16 чи 64.
  • 0

#12 zav

    зрадник

  • Користувачі
  • PipPipPipPipPipPipPipPipPipPip
  • 9565 повідомлень
  • Стать:Чоловік
  • Місто:Київ

Відправлено 09.12.2008 – 22:00

Перегляд дописуNomad (9.12.2008 21:10) писав:

Проблема в латентності памяті а не в ширині смуги пропускання
Хоча б почитали для пристойності ті статті :)
Контролер пам'яті хіба не вбудовують у процесори? /Уже роки 3, здається, AMD пхає їх в Athlon./
Що нового я там знайду? Суперкоп'ютери ж якось працюють з тими десятками тисяч процесорів - застосують звідти методи.
Дитяче якесь питання. Зрештою є процесори неx86 з кількістю ядер за кілька десятків - давно є. Типу того Sony PlayStation 3 чи щось таке. Якийсь там Scale /насправді Cell від IBM - два модулі по 16 ядер/, здається. Чули про проблеми з ними? І я не чув.

Перегляд дописуNo_name (9.12.2008 21:01) писав:

Тоді на кожне ядро повинна бутис своя пам'ять і у всіх їх повинні дублюватись дані, виходить так???
Проблема саме в синхроніхації.
Пам'ять - абстракція. Нехай буде зона пам'яті, область тощо, нехай буде динамічна область, виділена кожному ядру коремо.
Синхронізація? Там кілька сотень мільйонів транзисторів - щось придумають.

Повідомлення відредагував zav: 09.12.2008 – 21:57

  • 0

#13 Nomad

    Старійшина

  • Користувачі
  • PipPipPipPipPipPipPipPipPipPip
  • 3581 повідомлень

Відправлено 09.12.2008 – 22:05

Перегляд дописуzav (9.12.2008 21:54) писав:

Контролер пам'яті хіба не вбудовують у процесори?
Що нового я там знайду? Суперкоп'ютери ж якось працюють з тими десятками тисяч процесорів - застосують звідти методи.
Дитяче якесь питання. Зрештою є процесори неx86 з кількістю ядер за кілька десятків - давно є. Типу того Sony PlayStation 3 чи щось таке. Якийсь там Scale, здається. Чули про проблеми з ними? І я не чув.
Пане Зав, чому б не визнати шо ви профан і вийти з теми з чистою репутацією?
Контролер памяті вбудований в нові процесори Intel(хоча раніше до цього додумалася AMD), але це не вирішує кардинально проблему- латентність менша, але висока все рівно- інакше в цих процесорів не було б такого великого кешу 3 рівня.
Про неx86 процесори- ваша чистісінька правда, в них інша архітектура, але латентінсть памяті все-рівно залишається.
Я розумію шо статус Т Флудера зобовязує, але ж не несіть фігні( за це ви так не любите Вебера, а самі не кращі, принанні в даній темі)

Перегляд дописуzav (9.12.2008 22:00) писав:

Пам'ять - абстракція. Нехай буде зона пам'яті, область тощо, нехай буде динамічна область, виділена кожному ядру коремо.
Синхронізація? Там кілька сотень мільйонів транзисторів - щось придумають.
Тут тіки варто сказати - браво пане, ви невіглас! Бо ми про реалізацію говоримо, а ви про абстрактну память.
  • 0

#14 zav

    зрадник

  • Користувачі
  • PipPipPipPipPipPipPipPipPipPip
  • 9565 повідомлень
  • Стать:Чоловік
  • Місто:Київ

Відправлено 09.12.2008 – 22:05

Перегляд дописуNomad (9.12.2008 21:10) писав:

Проблема в латентності памяті а не в ширині смуги пропускання
Хоча б почитали для пристойності ті статті :)
А ви самі читали ті статті?
"Because of limited memory bandwidth and memory-management schemes that are poorly suited to supercomputers, the performance of these machines would level off or even decline with more cores."©
І що ми бачимо? Бачимо, що хтось зі стелі обмежив пропускну смугу! А чому? Які для цьго підстави? А ніяких!
Що ще бачимо? Бачимо недосконість схем управління пам'яттю, зважаючи на їхнє застосування в супермегапуркалькуляторах! Трапляється. але нема межі досконалості! Придумають кращі схеми, котрі відповідатимуть заданим вимогам.
"The performance is especially bad for informatics applications—data-intensive programs that are increasingly crucial to the labs’ national security function."
Ще бачимо, що є така штука - кеш ядра, і якщо обсяг даних, необхідних для вирішення задачі, не перевищить його, то ніякого сповільнення швидкодії не буде.
Який рлбимо висновок? Дійсно, проблема є, але найперша для "labs’ national security function"©. Ви там працюєте? Чи багато, крім вас, там працюють? Який відсоток користувачів стикнеться з цією проблемою? Навіщо ви напхали на початку теми логотипи звичайнісіньких домашньо-охвісних машинок, котрим ця проблема ще десять років не світитиме?

Повідомлення відредагував zav: 09.12.2008 – 22:13

  • 0

#15 Nomad

    Старійшина

  • Користувачі
  • PipPipPipPipPipPipPipPipPipPip
  • 3581 повідомлень

Відправлено 09.12.2008 – 22:12

Перегляд дописуzav (9.12.2008 22:05) писав:

А ви самі читали ті статті?
"Because of limited memory bandwidth and memory-management schemes that are poorly suited to supercomputers, the performance of these machines would level off or even decline with more cores."©
І що ми бачимо? бачимо, що хтось зі стелі обмежив пропускну смугу! А чому? Які для цьго підстави? А ніяких!
Що ще бачимо? Бачимо недосконість схем управління пам'яттю, зважаючи на їхнє застосування в супермегапуркалькуляторах! Трапляється. але нема межі досконалості! Придумають кращі схеми, котрі відповідатимуть заданим вимогам.
"The performance is especially bad for informatics applications—data-intensive programs that are increasingly crucial to the labs’ national security function."
Ще бачимо, що є така штука - кеш ядра, і якщо обсяг даних, необхідних для вирішення задачі, не перевищить його, то ніякого сповільнення швидкодії не буде.
Тобто ви хочете іти екстенсивним шляхом збільшення пропускної спроможності яка все рівно дійде до межі? Дуже вигідно, враховуючи шо ці мікросхеми будуть настільки дорогими, шо їх ніхто не куплятиме. Хочете приклад- память Rambus DRAM
Ми тут не говоримо про те шо придумають і чого не придумають, ми думаємо яким шляхом можна іти.
  • 0

#16 zav

    зрадник

  • Користувачі
  • PipPipPipPipPipPipPipPipPipPip
  • 9565 повідомлень
  • Стать:Чоловік
  • Місто:Київ

Відправлено 09.12.2008 – 22:12

Перегляд дописуNomad (9.12.2008 22:05) писав:

Пане Зав, чому б не визнати шо ви профан і вийти з теми з чистою репутацією?
Наевно тому, що мені викладали мікроконтролери і я трохи знаюся на темі.

Перегляд дописуNomad (9.12.2008 22:05) писав:

Контролер памяті вбудований в нові процесори Intel(хоча раніше до цього додумалася AMD), але це не вирішує кардинально проблему- латентність менша, але висока все рівно- інакше в цих процесорів не було б такого великого кешу 3 рівня.
Латентність там - один такт. Якщо це велика, то вибачте - меншої наврядчи досягнуть.

Перегляд дописуNomad (9.12.2008 22:05) писав:

Тут тіки варто сказати - браво пане, ви невіглас! Бо ми про реалізацію говоримо, а ви про абстрактну память.
Про реаялізацію мають говорити спеціялісти. Ви спеціяліст із розробки мікропроцесорів? Яке у вас наукове звання?
  • 0

#17 Nomad

    Старійшина

  • Користувачі
  • PipPipPipPipPipPipPipPipPipPip
  • 3581 повідомлень

Відправлено 09.12.2008 – 22:16

Перегляд дописуzav (9.12.2008 22:05) писав:

Який рлбимо висновок? Дійсно, проблема є, але найперша для "labs’ national security function"©. Ви там працюєте? Чи багато, крім вас, там працюють? Який відсоток користувачів стикнеться з цією проблемою? Навіщо ви напхали на початку теми логотипи звичайнісіньких домашньо-охвісних машинок, котрим ця проблема ще десять років не світитиме?
Не будьте тупими- сучасні процесори Intel Nehalem уже мають у своєму розпорядженню 8 віртуальних ядер, пройде кілька років- і їх число збільшиться. Якшо ви думаєте шо НТР і закон Мура обійде вас стороною- ваше діло, може лише співчувати вашій обмеженості.
  • 0

#18 zav

    зрадник

  • Користувачі
  • PipPipPipPipPipPipPipPipPipPip
  • 9565 повідомлень
  • Стать:Чоловік
  • Місто:Київ

Відправлено 09.12.2008 – 22:17

Перегляд дописуNomad (9.12.2008 22:12) писав:

Тобто ви хочете іти екстенсивним шляхом збільшення пропускної спроможності яка все рівно дійде до межі? Дуже вигідно, враховуючи шо ці мікросхеми будуть настільки дорогими, шо їх ніхто не куплятиме. Хочете приклад- память Rambus DRAM
Ми тут не говоримо про те шо придумають і чого не придумають, ми думаємо яким шляхом можна іти.
Процесори вже 30 чи 40 років охвивають саме екстенсивним хляхом, тмоу що закон пана Мура. Вигадати тут зось нове доволі скалдно. Набагато легше застосувати інакші методи вирішення задач: нейронні мережі, асинхронні мафинки або щось інше.
Rambus - це приклад неекстенсивного розвитку, як раз. Тому-то вона й вийшла дорогою. Натомість приклад екстенсивного розвитку - DDR, DDR2, DDR3 тощо. Також таким прикладом є Ethenert 10Base-T, 100Base-T, 1000Base-T...
Яким шляхом іти - вирушвати не вам, нажаль. За вас це вирішать виробники мікропроцесорів.
  • 0

#19 Nomad

    Старійшина

  • Користувачі
  • PipPipPipPipPipPipPipPipPipPip
  • 3581 повідомлень

Відправлено 09.12.2008 – 22:37

Перегляд дописуzav (9.12.2008 22:12) писав:

1)Наевно тому, що мені викладали мікроконтролери і я трохи знаюся на темі.

2)Латентність там - один такт. Якщо це велика, то вибачте - меншої наврядчи досягнуть.

3)Про реаялізацію мають говорити спеціялісти. Ви спеціяліст із розробки мікропроцесорів? Яке у вас наукове звання?
1) Ви напевне просипали пари, і ше мабуть повинні знати шо мікроконтроллери чимось та і відрізняються від процесорів
2)Пруфлінк?
3)Лізете як завжди на особистості- ваше діло.
Студент фвкультету інформатики і обчислювальної техніки, виключно завзято цікавлюся архітектурою компутерів.

Перегляд дописуzav (9.12.2008 22:17) писав:

Процесори вже 30 чи 40 років охвивають саме екстенсивним хляхом, тмоу що закон пана Мура. Вигадати тут зось нове доволі скалдно. Набагато легше застосувати інакші методи вирішення задач: нейронні мережі, асинхронні мафинки або щось інше.
Rambus - це приклад неекстенсивного розвитку, як раз. Тому-то вона й вийшла дорогою. Натомість приклад екстенсивного розвитку - DDR, DDR2, DDR3 тощо. Також таким прикладом є Ethenert 10Base-T, 100Base-T, 1000Base-T...
Яким шляхом іти - вирушвати не вам, нажаль. За вас це вирішать виробники мікропроцесорів.
Закон Мура має свою границю теплового шуму- повинні це знати.
RDRAM просто випередила свій час і її реалізація виявилася занадто дорогою, чого б зараз не спробувати її реалізувати знову? Думаю, провідні лабораторії вже працюють над подібними ідеями.
Яким шляхом хто піде вирішать інженери, ми тут обговорюємо можливі варіанти.

Перегляд дописуzav (9.12.2008 22:00) писав:

Зрештою є процесори неx86 з кількістю ядер за кілька десятків - давно є. Типу того Sony PlayStation 3 чи щось таке. Якийсь там Scale /насправді Cell від IBM - два модулі по 16 ядер/, здається. Чули про проблеми з ними? І я не чув.

Цитата

Производительность оперативной, графической и, следовательно, и унифицированной памяти определяется несколькими характеристиками, к которым относится рабочая частота памяти и ее архитектура, а также скорость и загруженность шины по которой память “общается” с CPU и GPU.
Однако, помимо этого в любой вычислительной системе существует проблема, которая называется “memory wall” (стена памяти). Суть этой проблемы заключается в том, что тактовые частоты памяти и процессора не совпадают. Если вы посмотрите на тактовые скорости (частоты) CPU на обеих консолях, то увидите, что она равна 3,2 GHz, а частоты памяти, как правило не превышают 1600 MHz. Это узкое место в работе традиционных вычислительных систем. CPU и GPU обращаются к памяти постоянно, записывая или читая из нее, и вынуждены простаивать в “ожидании” получения результата из пула памяти. Конечно эти задержки (или латентность памяти) измеряются в чрезвычайно малых величинах времени (наносекунды), но в результате таких задержек в программах, активно использующих память, которыми являются игры, общая производительность системы значительно падает.
http://forum.ixbt.co...?id=87:748:1426
  • 0

#20 FT232BM

    私は人々嫌い

  • Користувачі
  • PipPipPipPipPipPipPipPipPipPip
  • 3435 повідомлень
  • Стать:Чоловік
  • Місто:Київ->НТУУ "КПІ"

Відправлено 09.12.2008 – 22:38

Перегляд дописуNomad (9.12.2008 22:25) писав:

1) Ви напевне просипали пари, і ше мабуть повинні знати шо мікроконтроллери чимось та і відрізняються від процесорів
Ну так розкажіть, я б послухав. МК — це проц, обвішаний периферією(ОЗП, flash, АЦП, контролер RS232 і т.п. ) просто напросто. Хіба, що процесори не ті (RISC, ARM в основному). Тому можна сказати, шо якшо людина вивчала МК, то вона розбирається все-таки в процесорах.
Від себе додам, що вихід один: System on Chip. Минулого року здається в у нас в інституті навіть якась конференція чи шо з цього приводу була.

Повідомлення відредагував FT232BM: 09.12.2008 – 22:43

  • 0



Кількість користувачів, що читають цю тему: 1

0 користувачів, 1 гостей, 0 анонімних