シリコンバレー社 | SwiftSummit Innovations Inc.

企業が AI インフラストラクチャで実際に何をしているのか、また企業が直面している処理とネットワークの容量、電力、冷却の問題を把握したい場合は、コロケーションデータセンタープロバイダーに相談する必要があります。そこで私たちは、シリコンバレーの中心部であり、おそらくデータセンターを運営するのに最悪の場所であるサンタクララに拠点を置くコロボアからそれを開始するつもりです。

あるいは、うまくやれば、顧客の需要が非常に高いため、おそらく最適な場所になるでしょう。コロボアの共同創設者、会長、最高財務責任者であるベン・コフリン氏はまさにそれをどう見ているかだ。

Colovore が私たちの注目を集めたのは、Cerebras Systems が 16 個の CS-2 ウェハースケールコンピューティングシステムからなる「Andromeda」クラスターをホストしている場所であるためです。このクラスターは、AI モデルのトレーニングに 1 エクサフロップスを超える半精度 FP16 浮動小数点演算を提供します。上の目玉画像に示されているのは、サンノゼミネタ国際空港近くのスペースパークドライブにあるデータセンターです。奇妙なことに、UNIXSurplus Computer Store の向かいにあり、Digital Realty、Equinix、Evocative が運営するデータセンターの目と鼻の先にあります。、タタ・コミュニケーションズ。

Colovore は 2012 年に設立され、ちょうど GPU で高速化された AI ブームが始まった時期に、これまでに 800 万ドルの資金を調達しており、現時点でデータセンターは 1 つだけです。同社の SJC01 データセンターの面積は 24,000 平方フィートで、液体冷却のおかげでコンパクトですが、2014 年から稼働しています。SJC01 施設は段階的に拡張されており、2022 年 2 月に施設内の 2 メガワットの拡張が行われ、 9 メガワットの最大負荷に近づきます。ラックの電力と冷却能力は 20 キロワットで開始され、35 キロワットまで拡張されました。 2024 年第 2 四半期にオープン予定の SJC02 データセンターは、エリスパートナーズから賃貸している UNIXSurplus ビルに入居する予定です。 (たとえを見たことがあれば、比喩があります。...) 約 29,000 平方フィートのスペースがあり、SJC01 と同様に、液冷ラックのみを提供し、顧客の要望に応じて直接液冷も提供する可能性があります。 (そして私たちはそうなると考えています。) 新しいデータセンターでは、ラックは最初から 50 キロワットまで拡張されます。

Colovore の共同設立者である Sean Holzknecht 氏は、Evocative の運営担当副社長であり、Pacific Bell でサンフランシスコの複数の中央オフィスを運営した後、Emerytech Data Center という別のデータセンターオペレーターを設立しました。コフリン氏は資金担当であり、電気通信とデジタルメディアに重点を置いた資本金50億ドルのプライベートエクイティ会社であるスペクトラム・エクイティ・インベスターズのパートナーでもあった。 Colovore の 3 人目の共同創設者である Peter Harrison は、Google の世界的なデータセンターの設置面積、ファイバー・トゥ・プレミスのプロジェクト、および YouTube のコンテンツ配信ネットワークを管理しました。ハリソンはeBayのオペレーションディレクターであり、Netflixのストリーミングビデオサービスの立ち上げにも貢献しました。

コフリン氏が私たちに連絡をくれたのは、誰もが AI を使い始めたいと思っているのに、レコメンデーションエンジンや大規模な言語モデルを駆動するために必要な行列数学の怪物による冷却の問題についてまだ十分に理解できていないからです。 Colovore はその真っ只中にいて、活動の中心部で 9 メガワットの施設を運営しています。この施設は完全に水冷されており、企業が実現する必要がある最も高密度のコンピューティングを実行する準備ができています。最近、直接接続された液冷コールドプレートを備えた巨大なエクサスケールクラスのスーパーコンピューターに必要となるラックあたり 100 キロワットの話ではありませんが、それに近づいています。そして、それが必要な場合、コフリンにはシリコンバレーの中心部でその限界を押し上げることができるチームと施設があります。

ベン・コフリン：私たちは明らかに、この業界に関するあなたの報道をしばらく観察してきました。そして、私たちはここシリコンバレーで多くの新しい AI インフラストラクチャをサポートしているため、Colovore で興味深い交差点にいます。その理由の 1 つは、液体冷却を提供しているからです。 AI の成長と、その基盤となるサーバープラットフォームで AI がどのように革新されているかについては多くの議論が行われていますが、データセンターに関する議論は非常に限られています。大多数のデータセンターは、これらの AI システムをサポートするように構築されていません。データセンターがサポートできない場合は、ヒューストン、ここで少し問題が発生しました。

一般に、誰もがデータセンターを何らかの建物、不動産の一部として見ています。あまり面白くないし、話してもあまり楽しくないし、見た目も感じもみんな同じ。そしてほとんどの場合、それは正しいです。この種の AI インフラストラクチャが急増している現在を除けば、状況は変わらなければなりません。

ティモシー・プリケット・モーガン：わかりました、それについて話しましょう。あなたはサンタクララにデータセンターを持っています。これは、独自のデータセンターを運営したくないと考えている、コンピューティングとデータを最も大量に使用する顧客にサービスを提供していることを意味します。あなたは彼らをあなたが望む場所に正しく配置し、彼らもあなたを彼らがあなたに望む場所に配置します。

では、一体なぜカリフォルニアの不動産、水、電気の価格を支払う必要があるのでしょうか? 一見するとおかしなことのように思えますが、光の速度には常に限界があり、それによって特定のものが合理的に局所的になることが強制されます。

ベン・コフリン：私たちはフォーチュン 500 に名を連ねるスタートアップ企業にサービスを提供しています。顧客はさまざまで、月に数千ドルを費やす人もいれば、月に数十万ドルを費やす人もいます。そして、当社の顧客の多くはフォーチュン 500 に名を連ねており、AI 革命をリードする巨額の時価総額を誇る大手上場企業です。しかし実際には、遠隔地にあるデータセンターを実際に管理できる IT 部門がありません。これは、これほどの規模と複雑さを持つ企業にとっては衝撃的なことですが、これらの企業の IT の部分を少し剥がして、インフラストラクチャを処理できる技術運用担当者に注目してみると、それはあなたが思っているほど深刻ではありません。そして、これが、誰もがノースダコタ州ファーゴに行くか、シリコンバレーに比べてはるかに安価で建設が簡単な場所にある電力源を入手しようとしない静かな理由の1つです。だからこそ、地元の需要はまだたくさんあるのです。

TPM:現在、SJC01 で管理されているインフラストラクチャのうち、AI に関するものは何パーセントですか?

ベン・コフリン：データセンター内のすべてのサーバーのラックユニット数を概算すると、おそらく AI が 80 パーセントを占めます。ここでは数千の GPU を備えたファットなシステムが実行されています。

TPM: OK、つまり、今すぐこの通話を終了する必要はありません。どっちがいい。

ベン・コフリン：私たちが 10 年前に事業を始めたとき、私たちは皆、長い間データセンターを運営していました。そして私たちが何年も前に見ていたものはこれでした。ブレードと仮想化環境により、サーバープラットフォームはより小型かつより強力になり、設置面積を圧縮し、より小さな物理スペースでより多くのことを実行できるようになりました。そして、これにはキャビネット内の電力と、より多くの冷却が必要になることがわかりました。この AI 革命全体が起こるとは誰も予想していませんでしたが、私たちは初日から液体冷却を始めていたので、準備はできていました。

問題は次のとおりです。結局のところ、これはデータセンター内の冷却に関するものなのです。いつでも、より多くの電力回路を 1 つの場所に配送できます。そしてそれが私たちが焦点を当てたことです。

TPM:一瞬待って。バレーやバージニア州アッシュバーンのような他の場所では電力が制限されており、建物に電力を届けることはできても、ラックに電力を供給するのがますます難しくなっていると思いましたか?

ベン・コフリン：あまり。シリコンバレー電力には電力会社として、いくつかの制約がある。現在、北バージニアで起こっていることとは全く異なり、文字通りこれ以上の電力を供給できない。データセンター内の場所により多くの電力を供給したい場合は、通常はそれが可能です。問題は暑さをどうするかです。

TPM: SJC01 データセンターがラックにどのような電力を供給できるかについての仕様を読みました。これがどこから始まり、現在どこにいますか。冷却と電力の両方の理由から、100 キロワットはラックで処理するには多すぎると今でも思っています。人々は実際に何をしているのでしょうか?

ベン・コフリン：組み立てブロックをあげましょう。標準的なデータセンターのほとんどは、キャビネット内で 5 キロワットをサポートしています。

TPM:それは愚かです。 CPU は 400 ワット、GPU は 800 ワットを押し上げています。

ベン・コフリン：ねえ、信じてください、あなたは私たちの曲を歌っています。しかし、10 年前、一般的なサーバーはおそらく 250 ワット、サーバー CPU はおそらく 75 ワット、場合によっては 100 ワットでした。

TPM:そうですね、CPU の方が白熱電球よりも消費する量が多いと人々が大騒ぎしていたのを覚えていますが、今では CPU はヘアドライヤーのようなもので、私たちはひるみません。

ベン・コフリン：私たちが最初にドアを開けたとき、私たちはすべてのラックを 20 キロワットに対応できるように構築しました。その後、数年後、拡張してオンラインで次のフェーズを開始したとき、35 キロワットで建設しました。現在は 50 キロワットをサポートしています。つまり、過去 10 年間の進化の中で、私たちは 20 年から 35 年、そして 50 年かけて内部的に進化してきました。そして、キャビネットごとに 250 キロワットを供給できます。それは実際には、それらのプラットフォームとその冷却方法の機能によって異なります。これらは直接水冷システムであり、弊社では多数のシステムを稼働させています。キャビネット内で 35 キロワットまたは 50 キロワットをドロップするものもありますが、現在、キャビネットあたり 200 キロワットを超える顧客を設計および導入しています。いいえ、それはひどい顧客ベースであるクリプトマイニングではありません。

TPM:これ以上同意できませんでした。新しい通貨を始めたいなら、イーロン・マスクと一緒に火星へ行きましょう。私は皆さんの荷物のまとめを手伝い、発射台まで車で連れて行きます。。。。

ベン・コフリン：これらはすべて、実際の企業による実際の AI ワークロードです。

TPM:あなたは谷にいるだけです。どうして他の場所にいないのですか？

ベン・コフリン：ご存知のとおり、一度に一歩ずつです。私たちは利益を上げており、成長しています。私はシリコンバレーに長く住んでおり、どんな犠牲を払ってでも成長するというベンチャーキャピタルのモデルを知っています。それは私たちのアプローチではありません。

しかし、あなたの指摘のとおり、AI がプロトタイピングから初期のトライアル、および一部の導入へと移行しているため、顧客は複数のキャビネットに移行しているのがわかります。すべてがかなり急速に拡大しているため、隣に別の場所を建設中です。それを超えて、私たちの次の動きは市場から少し外れると思いますが、それでも本質的には地域的なものです。それで、リノまで行くかもしれません。電力が安い地域がありますが、それでも比較的地元です。太平洋岸北西部は私たちにとって最適な場所です。しかし、私たちはすべての NFL 都市に旗を立てて熱狂するつもりはありません。一歩ずつ。。。。

TPM:私はこれを信じている企業をたくさん知っています。エッジコンピューティングについては、VaporIO と同じように、エッジネットワークを構築するための許可と建設の手間が膨大であるため、すべての NFL 都市にエッジコンピューティングを設置すべきだと私は主張します。

別の話題: データセンター市場のどのくらいが共同で使われるのでしょうか? おそらく、最長の実行では 3 分の 1 がクラウド、3 分の 1 がオンプレミス、そして 3 分の 1 が共同作業になると思います。

ベン・コフリン：それは良い質問です。それはあなたが思っているよりも大きいと思います、そしてここがあなたが覚えておく必要がある部分です。クラウドのフットプリントのうち、正確な数字はわかりませんが、クラウドデータセンターの約 0 ～ 40 パーセントが、大手企業がリースしている共同施設内で実際に稼働しています。彼らは、電力と土地が非常に安く、トラフィックをバックホールできる市場に独自のデータセンターを建設する予定です。しかし、彼らは、スペースと電力にそれだけのお金を費やして割増料金を支払うのは意味がないため、主要都市の共同プロバイダーから容量をリースしています。

私が長年主張してきたのは、雲はコロラド州にとって特効薬ではないということだった。私たちはいつも、それは実際には上昇傾向にあると言い続けてきました。はい、純粋なクラウドのみを実行するという決定を下す人もいます。しかし、繰り返しになりますが、多くのクラウドプロバイダーが co-lo を使用しています。。。。

TPM:私はその現象を無視して、独自のクラウドやサービスプロバイダーを運営していない Global 20000 について真剣に考え、彼らが何をするかを考えていました。オンプレミスからクラウドに移行し、その後オンプレミスに戻すという人は誰もいません。クラウド費用が高額になりすぎると、彼らは会社に半分戻るつもりだと思います。

ベン・コフリン：まず第一に、当社の顧客は全員ハイブリッドです。彼らは特定のアプリケーションにはクラウドを使用し、特定のアプリケーションには共同を使用しています。それはまさに一種のマルチプラットフォームです。特に AI やこの種のワークロードでは、クラウドにはいくつかの制限があり、それはコストだけではありません。クラウドが非常に高価であることは誰もが知っています。しかし、それはたとえ非常に重要であっても、それは 1 つの変数にすぎません。

TPM:顧客のために AI をどれくらい安く提供できるでしょうか?

ベン・コフリン：月単位で見ると、ほとんどのお客様は月々のクラウド料金と比較して 50% ～ 70% 節約しています。機器を購入する際にはフロントエンドに投資がかかりますが、その投資はわずか 3 ～ 6 か月で回収できます。したがって、ROI が巨大であることは経済的にも明らかです。

財務面だけを見れば、この種の AI ワークロードにはクラウドは意味がありません。ただし、他の変数もあります。インフラストラクチャを実行するにはスキルセットが必要です。これらのクラウド企業の多くの従業員は 20 歳の子供であり、サーバーに触れたことさえなく、それがどのように機能するのかさえ知りません。 CapEx-OpEx を考えている人もいます。レイテンシーはもう 1 つあり、AI にとって、レイテンシーはコロコロにとって大きな利点であると考えています。人々は自動運転車や ChatGPT について話しますが、それは問題ありませんが、それは AI ワークロードのごく一部にすぎません。しかし、リアルタイムアプリケーションの場合、クラウドを使用したり、そのインフラストラクチャが国の真ん中に存在したりすることは理想的ではなく、行ったり来たりする必要があります。これらのアプリケーションの一部では遅延が重要になります。したがって、クラウドはさまざまな側面で AI に最適ではありません。

ここが問題です。何をするにしても、大都市圏ではデータが生成されるため、その密度のコンピューティングエンジンが必要です。そこで分析して保存する必要があります。そして、それを実現するための最良の方法は、サーバープラットフォームで起こっていることと一致するデータセンターを用意し、サーバープラットフォームをより小型かつ強力にすることです。結局のところ、私たちがやっていることは、これらのサーバーで起こっていることを模倣していることになります。私たちはデータセンターを縮小し、全体の効率を高めているだけです。そしてそれを実現するために水を活用します。何百、何十万平方フィートものキャデラックを造る必要はありません。

私たちのすぐ向かいにある、6 階建て 150,000 平方フィートの Digital Realty 施設に完璧な例があります。私たちの敷地は 25,000 平方フィートで、彼らとまったく同じ量の電力を供給できます。つまり、同じコンピューティング量でも、彼らは私たちよりも 6 倍大きいということです。

TPM:貴社の増分コストはいくらですか?また、顧客に転嫁される増分コストはいくらですか?

ベン・コフリン：それは安価です。もう一つちょっとした誤りがあります。なぜなら、通常、空冷データセンターを構築するときは、ある種の直線的になるからです。より多くの容量があれば、より多くのコストがかかります。しかし、水は非常に効率的な冷却媒体であり、非常に多くの容量があるため、どんどん水を増やし続ける必要はありません。そこには規模の経済が存在します。したがって、顧客が消費するメガワットの重要な電力を供給するためのコストを見ると、設置面積が小さいため、業界よりも 30% 安くなります。

もう 1 つ覚えておかなければならないのは、データセンター業界では、大手企業の多くが不動産の専門家であるということです。彼らは建物を建てており、自分たちに適した方法で建物を建て、データセンターを運営する方法を知っています。そして、その規模で構築する場合、彼らはアプローチを持っており、これが彼らがそれらを打ち負かす方法です。データセンターに液体などの新しいテクノロジーを組み込むという点では、彼らは最も機敏とは言えません。したがって、あなたや私にとって非常に論理的で必要なもの、つまりデータセンターの液体冷却は、彼らを立ち止まらせます。ただし、いくつかの亀裂が見え始めています。 Digital Realty は、最近の四半期ごとの電話会議で、この高密度なものがデータセンターで重要になりつつあると最終的に述べました。

それまでの間、私たちは人目につかずに順調に進み、徐々に構築して正しい方向に進み続けます。

TPM:最後の質問: システムに直接液体冷却を導入したい場合、それは可能ですか?

ベン・コフリン：現在、さまざまな方法を使用した直接水冷サーバーで数メガワットを稼働させています。猫の皮を剥ぐにはさまざまな方法があります。

これまでのところ、サーバーのシャーシ自体は液冷されており、内部で独自の熱交換器を実行しているため、シャーシに水を供給し、内部で水を処理していることがわかっています。私たちは、水がシステムのさらに奥深くに分配される、コールドプレートに関する出来事への関心が高まっているのを目にしています。そして今はちょっとした西部開拓時代です。正直に言うと、現時点では初期段階のため、標準化はあまり進んでいません。

重要なことは、それを配布できる水とパイプがあることです。私たちのデータセンターに来て床下を見ると、そこには 3 ～ 4 フィートの配管があります。

しかし、これがこのすべての中で最も難しい部分であり、人々には十分に理解されていないので、あなたにとって興味深いかもしれないと思います。すべてのデータセンターには水があります。エアコンユニットは水をベースにしています。水をただ供給するだけではありません。水を濾過して化学薬品を加え、腐食がないように水が純粋であることを確認する必要があります。しかし、水を配水するときに最も重要なことは、パイプの大きさ、水の流量、水の温度について多くの決定を下さなければならないことです。これらのことは直接液体冷却される装置に直接影響します。プラットフォーム。

したがって、水管理の非常に核心に入ると、それらの変数に基づいて多くの決定を下す必要があります。これは、標準について私が述べたコメントに戻ります。これらの CDU プロバイダーの 1 つが、細いパイプで超高速の水を、極度の低温で高圧で供給したいと言っている場合、それには 1 つのインフラストラクチャのセットアップが必要です。誰かが、もっと穏やかな温度でゆっくりとした流れのような、大きなパイプの流れるプールをくれと言ったら、それには別のことが必要です。どちらか一方を持っている場合、データセンターがアプローチを切り替えるのはそれほど簡単ではありません。

幸いなことに、私たちのシステムはより大きなパイプの流れるプールのようなもので、これまでほとんどの冷却プラットフォームで見てきたことは、より低い流量の水の入力を対象としていました。

今週のハイライト、分析、ストーリーを、何も挟むことなく直接あなたの受信箱にお送りします。今すぐ購読してください。

ベン・コフリン: ティモシー・プリケット・モーガン: ベン・コフリン: TPM: ベン・コフリン: TPM: ベン・コフリン: TPM: ベン・コフリン: TPM: ベン・コフリン: TPM: ベン・コフリン: TPM: ベン・コフリン: TPM: ベン・コフリン: TPM: ベン・コフリン: TPM: ベン・コフリン: TPM: ベン・コフリン: TPM: ベン・コフリン: TPM: ベン・コフリン: TPM: ベン・コフリン: