14 มิถุนายน 2554 - เป็นมากกว่าแค่ event ที่จัดขึ้นนอกจากงาน Intel Developer Forum วันวิจัยและพัฒนาประจำปีของ Intel ได้รวบรวมความคิดอันหลากหลายของผู้ผลิตชิปรายใหญ่ที่สุดของโลก ได้อย่างชัดเจนและน่าจับตามองที่สุด. ถูกจัดขึ้นมาเพื่อแสดงสิ่งที่ Intel กำลังคิดอยู่ถึงเทคโนโลยีในอนาคต, งานเริ่มต้นด้วยการบรรยาย keynote แล้วปล่อยให้นักข่าวและนักวิเคราะห์เดินชมงานวิจัยต่างๆ ในห้องโถงตามอัธยาศัย. ในปีนี้, Intel CTO Justin Rattner ได้กลับมาชดเชยงาน present ในปีก่อนของเขา, ให้ข้อมูลโดยรวมถึงสายการพัฒนาของ Intel และแนวทางที่บริษัทได้วางเดิมพันไว้
ผมใช้เวลาทั้งวันในการเดินชมพิพิธภัณฑ์ประวัติศาสตร์คอมพิวเตอร์ใน Mountain View, ที่ซึ่งงานนี้ถูกจัดขึ้น, และผมไม่สามารถเห็นทุกอย่างทั้งหมดบนหน้าจอได้. ผมให้ความสนใจกับงานแสดงระบบรักษาความปลอดภัยและที่เกี่ยวของกับ datacenter ของ Intel เป็นพิเศษ. ผมจะพูดเล่าให้ฟังคร่าวๆ เกี่ยวกับ 2 เทคโนโลยีสำคัญที่เกี่ยวข้องกับ server ซึ่ง Intel กำลังพัฒนากันอยู่. แต่ก่อนอื่นใด, เริ่มกันด้วย keynote
Collaboration
Rattner ได้เน้น 5 เรื่องหลักๆ ที่ Intel ระดมพลัง R&D อยู่: ประมวลผลและโปรแกรมมิ่ง, พลังงานและการพัฒนาอย่างยั่งยืน, ความปลอดภัยและระบบเสมือน (Virtualization) , อิเล็กโทรนิกส์และ photonic, ประสบการณ์และปฏิสัมพันธ์กับผู้ใช้
ในแต่ละเรื่อง คำที่ Rattner เน้นหนักคือ การร่วมมือกัน (Collaboration). "Collaboration" มาในงาน วัน Intel R&D ปีนี้แทนคำว่า "นวัตกรรม (Innovation)" เมื่องาน CES ที่ผ่านมา - abstraction ที่สามารถถูกเรียกใช้งานด้วยอะไรก็ได้ ที่เหมือนผูกทุกอย่างเข้าด้วยกันและไม่ได้ผูกอะไรเลยพร้อมๆ กัน. Cloud datacenter? นี้เป็น platform ที่มีการ collaboration อย่างหนักหน่วง. ความปลอดภัย? พวกเราต้องการความปลอดภัยก่อนที่จะร่วมมือทำงานกับคนอื่นได้อย่างปลอดภัย. ประสบการณ์ผู้ใช้? ลองวิธีการใหม่ที่พวกเรานึกฝันกันถึงการ collaborate กับคนอื่นๆ. ผมจะเล่าต่อก็ได้, แต่มันอาจเจ็บปวด, และคุณจะเข้าใจว่าทำไม
Rattner ยังได้กล่าวถึงความร่วมมือระหว่าง Intel กับอุตสาหกรรม, รัฐบาล, และมหาวิทยาลัยต่างๆ. ตัวอย่างของความร่วมมือกับอุตสาหกรรม, เขาพูดถึงพอร์ต Thunderbolt ที่ไปอยู่ในเครื่อง Mac รุ่นใหม่
Thunderbolt เป็น "หยาดเหงื่อเพื่อ Apple เมื่อหลายปีก่อน ของห้องทดลองต่างๆ ของ Intel " Rattner กล่าว. Apple ดีใจกับเทคโนโลยีใหม่นี้มาก, ดังนั้น "พวกเราจึงเลื่อนตารางเวลาขึ้นมาอย่างมากเพื่อทันต่อความต้องการของ Apple ที่มีต่อตบาด"
อีกด้านที่น่าสนใจ, Rattner ใบ้ว่าพวกเราจะได้เห็นนวัตกรรมใหม่ๆ จาก Apple ในรูปแบบของสถาปัตยกรรม Mac, บอกต่อผู้เข้าร่วมงานให้ "จับตามอง". มันไม่เป็นที่แน่ชัดว่าอะไรที่เขากำลังพูดถึงอยู่, แต่ external GPU ก็เป็นตัวเลือกหนึ่งและถูกพูดถึงบ่อยๆ สำหรับ Thunderbolt
GPU-accelerated crypto
พูดถึง GPU Intel ต้องการจะดัน Integrated Processor Graphics (IPG) ออกสู่ตลาดให้ได้อย่างมาก, ตั้งแต่สายของ atom ถึง Xeon". ปัญหาเกี่ยวกับการรวม GPU ลงไปในชิปสำหรับ server อย่าง Xeon, อย่างไรก็ตาม, คือ datacenter ไม่ได้ใช้ประโยชน์จากมันซักเท่าไหร่, เพราะอย่างนั้นมันจะถูกพักทิ้งไว้เสียเปล่า
ทางแก้ปัญหาในตอนนี้คือ การตัด GPU ออกจากสายบางสายของ Xeon, แต่ Intel เลือกที่จะหางานที่น่าสนใจและคุ้มค่ากับ GPU เพื่อที่จะได้ปล่อยมันทิ้งอยู่ในนั้นไว้. จากจุดนี้, บริษัทได้ให้นักวิจัยทำงานเกี่ยวกับ workload ต่างๆ สำหรับ IPG เพื่อที่ลูกค้ากลุ่มที่สนใจ server สามารถได้ประโยชน์จากการใช้ GPU เช่นเดียวกับการใช้ CPU
เรื่องหนึ่งที่ Intel กำลังลงทุนเพื่อเป็นแหล่ง workload ของ GPU ใน server คือ การเข้ารหัส (Cryptography). ไม่เป็นที่แปลกใจ - การเร่งความเร็วในการเข้ารหัสเป็นเรื่องที่คุยกันอย่างกว้างขวางในกรณีใช้งาน server สำหรับ integrated coprocessor ตั้งแต่ช่วงแรกๆ ของทศวรรษที่แล้ว, เมื่อ Sun ได้พูดเกี่ยวกับว่ามันเป็นส่วนหนึ่งในสถาปัตยกรรม MAJC ที่น่าสงสาร. ย้อนกลับไปสมัยมีการประกาศการรวม AMD/ATi, การเร่งความเร็วในการเข้ารหัสเป็นหนึ่งในไม่กี่ความคิดหลักๆ ที่ทั้งสองบริษัทสามารถนึกออกถึงอะไรที่จะพัฒนากลายเป็น generic application-specific block ในผัง SoC ของบริษัท
เป็นที่แน่นอน, วิธีของ Intel กำลังทำอยู่ไม่ได้เป็นการสร้างตัวเร่งการเข้ารหัสแบบเฉพาะทางลงไปในชิปของ server, แต่ใส่ GPU ลงไปในตัวเร่งการเข้ารหัสโดยการดึงตัวเลขส่วนหนึ่งออกมาเพื่อให้มันช่วยคำนวณ
Ken Grewal จาก Intel อธิบายถึง นักวิจัย Intel สามารถจัดการเพิ่มจำนวน HTTPS connection ที่ถูกสร้างขึ้นพร้อมๆ กัน (Concurrent) ได้อย่างไร โดยใช้ชิปเพียงตัวเดียวรับมือถึง 10 connections หลังจากใช้ GPU เพื่อช่วยคำนวณ RSA algorithm
"พวกเราได้พยายามเพ่งเล็งไปที่เร่งความเร็วของ RSA [อยู่ใน Transport Layer Security]", Grewal กล่าว, "และที่พวกเราทำเสร็จเป็นเพียงการพัฒนา algorithm เพียงบางส่วนเท่านั้น". โดยง่ายๆ พวกเราแบ่ง workload ระหว่าง CPU และ GPU".
ตัวอย่างของเทคโนโลยีนี้ใช้ชิป Sandy Bridge, ที่มี GPU ที่มี function ตายตัว (fixed function). แต่แตกต่างจากข้อจำกัดของ GPU, Intel ยังสามารถส่ง code บางตัวไปให้ และให้มันทำงานให้เป็นประโยชน์ได้
หลังจากถาม Grewal เกี่ยวกับธรรมชาติของ fixed function ของ GPU ใน Sandy Bridge, ผมพยายามเพื่อที่จะรู้ให้ได้อีกนิดด้วยการพูดว่า, "ชีวิตพวกเราจะง่ายขึ้นด้วย Ivy Bridge, เพราะว่ามันควรจะยืดหยุ่นมากกว่านี้", แต่ผมไม่สามารถบันทึกเสียงของเขาเพื่อยืนยันในสิ่งที่พวกเรารู้กัน, นั่นคือ Ivy Bridge จะมี GPU ที่ยืดหยุ่นมากกว่าเดิมมากรุ่นใหม่ที่รองรับ DX11. Greward แค่ยิ้มและพูดว่า, "เมื่อเวลาผ่านไป, พวกเราคาดหวังที่จะให้มี function มากกว่าที่เป็นอยู่"
Greward ยังได้เน้นว่า ตัวเร่งการเข้ารหัสที่ Intel ได้แสดงให้ดูเป็นงานวิจัยที่อยู่ในช่วงแรกๆ, และเขาก็ได้พูดซ้ำว่า "การสนับสนุนตัวประมวลผลกราฟฟิกของ SDB [Sandy Bridge] ตลอดสายของ server ยังไม่เป็นที่แน่นอน"
SCCC: a cluster-on-die chip
ที่งาน Research @ Intel ปีที่แล้ว,
ผมได้ถาม Justin Rattner เกี่ยวกับสิ่งที่เขานึกถึงรูปแบบของ server ที่ใช้ Atom, และโดยเฉพาะสิ่งที่เขาคิดเกี่ยวกับ server ที่ใส่ Atom ลงไป 512 ตัวของ SeaMicro. เขาตอบกลับมาว่า คอมพิวเตอร์แบบ cloud ที่ใช้ chip เดี่ยว 48 core ที่ Intel กำลังสาธิตเป็นครั้งแรกอยู่ เป็นตัวอย่างที่ดีที่สุดถึงความคิดของ Intel สำหรับการจัดการความต้องการ สำหรับผืนทะเลของ core ตัวเล็กๆ ของ cloud datacenter
จุดยืนของ Intel บน Atom ได้เปลี่ยนไป, จากที่บริษัทได้เริ่มพูดเกี่ยวกับการผลิตชิ้นส่วนของ Atom ที่ถูกตั้งเป้าไว้ที่ตลาด cloud server. แต่ SCCC ยังคงดำเนินต่อไปและกลายเป็น platform ทดลองสำหรับการประมวลผลแบบหลาย core
ผมมีโอกาสได้เห็น SCCC ขณะทำงานอยู่ อยู่ที่บูธสำหรับ Many-Core Application Research Community (MARC) ของ Intel. MARC ประกอบไปด้วยสถาบันต่างๆ กว่า 80 สถาบัน และมีนักวิจัยกว่า 300 ชีวิต, และที่นี่สร้างบนพื้นฐานของระบบ SCCC ที่ Intel ให้ฟรีกับกลุ่มวิชาการ เพื่อที่พวกเขาได้ทำงานวิจัยของพวกเขาเกี่ยวกับชิปหลาย core
การตัดสินใจเริ่มต้นระบบเหล่านี้ฟรีๆ ของ Intel มีความหมายอย่างมากเพราะ กลุ่มก่อนหน้า MARC ที่มีชื่อ งานวิจัยต่างๆ อิงกับระบบ Field-Programmable Gate Array (FPGA) ที่ซึ่งสามารถจำลอง core เป็นจำนวนมากได้. ผมกำลังนึกถึงระบบ
Berkeley RAMP ที่มีชื่อเสียง เป็นพิเศษ, ที่ดำเนินการโดยกลุ่มของ David Patterson. วิธีของ MARC นั้นถูกกว่า RAMP อย่างแน่นอน และนั่นดูเหมือนเป็นการพัฒนาอย่างมาก
ตราบใดที่ชิป SCCC เป็นแรงบันดาลใจให้ MARC, พวกเราได้
อธิบายไว้ ก่อนหน้านี้. สรุปได้ว่า, SCCC เป็น ชิปที่ผลิตบนเทคโนโลยี 45 nm ประกอบไปด้วย 48 core ทำงานที่ 1 GHz, โดยที่แต่ละ core จะอยู่บนพื้นฐานของรุ่นดัดแปลงของ Pentium รุ่นดั้งเดิม (P54C) ที่วางตลาดในปี 1994
ชิปถูกแบ่งออกเป็น 24 core คู่, แต่ละคู่ประกอบไปด้วย router 4 พอร์ต ที่ต่อเข้ากับ router ตัวอื่นที่อยู่ติดกัน (เหนือ, ใต้, ออก, ตก) เพื่อสร้างเครือข่ายตาข่าย (Mesh Network). Mesh network ความเร็ว 2 GHz นี้มี bandwidth อยู่ระหว่าง 1.5 Tb/s ถึง 2 Tb/s, และทั้งชิปมี memory controller อยู่ 4 ตัวด้วยกันเพื่อนำข้อมูลเข้าและออกจาก socket.
ในแต่ละ core ของ SCCC จะทำงาน OS อยู่ 1 ตัว - Linux รุ่นถูกปรับแต่งมาแล้ว. ดังนั้นถ้าคุณนำ SCCC มาใช้ใน network ของคุณ, มันจะดูเหมือน rack ที่มีอยู่ 48 ระบบด้วยกัน, ซึ่งแต่ละอันมี OS (ไม่ได้ Virtualize) และ IP address ของตัวเอง
Intel ได้แจกฟรี, ตัวอย่าง SCCC ที่งาน (ในรูปภาพของบน เป็นของผม), ที่สามารถใส่ลงไปใน motherboard เฉพาะ,ในรูปข้างล่าง
ทั้งหมดนี้ประกอบขึ้นเป็นระบบที่ไม่ต้องการ I/O มาตรฐาน อย่างกราฟฟิกหรือ USB นัก. มันมี port I/O ที่ทำงานได้ไวอยู่ 1 port ที่เปิดให้ผู้ใช้รวมบอร์ดหลายๆ บอร์ดเข้าด้วยกันเพื่อขยายวง mesh. เพื่อทุกสิ่ง, ตัวบอร์ดใช้ Virtex 5 FPGA เพื่อให้ Intel สามารถ program ตั้ง I/O interface ใหม่ได้; นี่ถูกใช้เพื่อเพิ่ม Ethernet port, เป็นต้น
นักวิจัยสามารถต่อกับระบบและสั่งให้มันประมวณ code ผ่านทาง terminal interface มาตรฐาน. จริงๆแล้ว, Intel ได้นำระบบนี้ทั้งหมด 40 ชุดลงไปใน datacenter ใน Oregon เพื่อให้ผู้ใช้สามารถเข้าถึงจากระยะไกล, เพราะเหมือนไม่มีข้อแตกต่างในประสบการณ์ผู้ใช้ (user experience) ระหว่างการ SSH ไปยัง datacenter ที่อยู่ห่างไกล และการ SSH ไปยังระบบ SCCC ที่กำลังวางอยู่ใต้โต๊ะคุณ
 |
| Intel ได้แจกระบบนี้ไปยังกลุ่มวิจัยต่างๆทั่วโลกถึง 130 ชุดด้วยกัน |
ต่างจาก ตระกูลอัศวินของ coprocessor หลาย core (รู้กันในชื่อเก่าว่า Larrabee) ของ Intel, SCCC ไม่ได้เป็นสินค้าหรือสินค้าต้นแบบแต่อย่างใด. แต่, มันเป็นตัวทดสอบอย่างเต็มตัวจากที่ Intel และกลุ่มร่วมวิจัยสามารถศึกษาสิ่งต่างๆ ที่พวกเขาสามารถใส่ลงไปในสินค้าตัวต่อๆ ไป. และพวกเขาต้องศึกษา, ไม่เช่นนั้น Intel จะสร้างชิปหลาย core ที่ไม่มีใครสามารถใช้มันได้เลย.
ปัญหาสำคัญเกี่ยวกับการพัฒนาไปสู่การคำนวณแบบหลาย core คือนั่นต้องมีงานวิทยานิพนธ์ทั้งยุคสมัยของปริญญาเอก ที่ต้องถูกเขียนก่อนที่นักวิทยาคอมพิวเตอร์และนักโปรแกรมทั่วไป สามารถระดมความคิดในการใช้งานหลาย core เพื่อประสิทธิภาพสูงสุด. กลุ่ม MARC, ต่อมา, จะอยู่เพื่อพัฒนาสิ่งเหล่านั้นให้เยอะขึ้นไปอีก, การมีงานวิจัยพื้นฐานมากๆ และเร่งมันขึ้นไป, ดังนั้นความต้องการมีหลาย core เริ่มตั้นเพื่อตามความสามารถของ Intel ในการผลิตจำนวน core ที่มากขึ้น
Robert Nordaki จาก Intel ตื่นเต้นกับผลงานของกลุ่มๆ นี้ในปีแรก, ด้วยว่ากลุ่มนี้นำอุปกรณ์หลาย core จำนวนมากเข้าไปทำการศึกษาวิจัยในแลปที่ไม่มีเงินทุนในการที่จะวิจัยเรื่องนี้ได้
"[The SCCC] เปิดให้คนเข้ามาทำการวิจัย ที่พวกเขาได้เริ่มไปก่อนแล้วในทิศทางที่เปลี่ยนไปจากเดิมโดยสิ้นเชิง", Nordaki กล่าว, "บางสิ่งที่อาจมีมูลค่าถึงหลายแสนดอลล่าร์ในการสร้างใหม่อยู่ในระบบเพียง rack เดียว"
"ถ้าคุณดูกลุ่มคนที่ทำการวิจัยอยู่, พวกเราได้คนจากนิวซีแลนด์, เกาหลีใต้, ไซปรัส, Crete, บราซิล - พวกเราได้คนที่ไม่เคยทำงานวิจัยด้านนี้มาก่อนเพราะมันแพงเกินกว่าที่จะทำได้, และพวกเขาพร้อมที่จะเริ่มสร้างผลงานดีๆ ออกมา"
ส่วนหนึ่งของเหตุผลที่ SCCC มีราคาถูกมากเพื่อนำมาใช้งาน ไม่ใช่แค่การที่ Intel แจกให้ฟรีเท่านั้น; มันเป็น cluster ของ x86 core ที่แลปต่างๆ ที่ขาดแคลนงบประมาณใช้เพื่อการวิจัย. นี่ทำให้เป็นเรื่องง่ายในการแปลงโค้ดของ Lab ต่างๆ ลงไปใน platform นี้
"พวกเราได้คนกลุ่มหนึ่งที่สามารถทำให้ application ของพวกเขาที่ทำงานบนระบบ cluster และ port มันลงเครื่องและเปิดให้มันทำงานได้ภายในหนึ่งหรือสองวัน และพวกเขากำลังทำการวิจัยเกี่ยวกับชิปกันอยู่", Nordik พูด, "ความสวยงามของผลงานชิ้นนี้คือมันสามารถทำงานได้กับทุกคนด้วยสิ่งที่ทุกคนมีอยู่แล้ว"
นักวิเคระห์และผู้เชี่ยวชาญทุกคน ที่คิดว่า ARM จะเดินอาดๆ เข้ามายัง datacenter และขโมยตั๋วอาหารของ Intel ด้วย core ที่กินพลังงานต่ำอาจต้องระวัง SCCC" ในขณะที่ชิปและ platform ตัวนี้จะไม่มีวันได้ออกสู่ตลาด, แต่สามารถเชื่อได้เลยว่าจะมีสิ่งที่เหมือนมันลงสนามแทน. ประเด็นต่างๆ ที่เกี่ยวข้องกับการ integration ในระดับนี้ไม่ใช่เรื่องไร้สาระ, และ Intel มีทีท่าจะนำหน้าไปก่อน ARM เมื่อความต้องการ cluster ของชิปเดี่ยวเหล่านี้.
อ่านเพิ่มเติม
Source:
http://arstechnica.com/business/news/2011/06/research-intel-day-2011-a-brief-glimpse-of-the-clouds-future-according-to-intel.ars