CS 276/286 LING: Information Retrieval dan Web Cari Spring 2013


Chris Manning, Pandu Nayak, dan Prabhakar Raghavan

Kursus Info Silabus Coursera Piazza Buku






CS 276/286 LING: Retrieval Informasi dan Web Search

Kuliah: 3 unit, Tu / Th 4:15-05:30 di Auditorium NVIDIA (tersedia secara online melalui SCPD )

Staf e-mail: cs276-spr1213-staff@lists.stanford.edu


Kursus Deskripsi


Teknik dasar dan lanjutan untuk sistem informasi berbasis teks: pengindeksan teks efisien, Boolean dan vektor model pengambilan space, masalah evaluasi dan antarmuka, pencarian Web termasuk merangkak, algoritma berbasis link-, dan Web metadata, pengelompokan teks / Web, klasifikasi; pertambangan teks .

Kebijakan Informasi (grading, dll)

Prasyarat: CS 107, CS 109, CS 161. Idealnya seluruh CS Mayor Inti.


Online Resources


Coursera: CS 276 akan memanfaatkan video online dan kuis serta ceramah hidup kelas, presentasi, dan laboratorium. Kunjungi Coursera untuk menemukan potongan video dan latihan online. Kami akan posting tugas pemrograman yang diperlukan dan masalah set melalui Coursera, jadi mendaftar segera (dengan Stanford ID Anda)!

Piazza: Kami sangat menyarankan agar Anda posting pertanyaan tentang tugas, kuliah atau materi kuliah umum di Piazza . Ini memfasilitasi diskusi antara siswa, dan memungkinkan orang lain untuk mendapatkan keuntungan dari diskusi juga. Bahkan jika Anda pikir pertanyaan Anda adalah khusus untuk pelaksanaan Anda, Anda dapat menggunakan fitur 'pertanyaan pribadi' untuk mengatasi pertanyaan kepada staf khusus. Kami akan menggunakan Piazza untuk mengirim saja pengumuman, jadi pastikan untuk mendaftar di Piazza segera juga. Berikut adalah cepat pengenalan video .

Staf Email: Jika Anda benar-benar memiliki pertanyaan tentang situasi Anda secara khusus, bahwa Anda tidak berpikir tidak sesuai untuk forum kelas (bahkan bukan pertanyaan pribadi), silahkan email staf mailing list di cs276-spr1213-staf @ daftar. stanford.edu .


Pengumuman:

Jika Anda tidak terdaftar dalam kursus tapi ingin menerima saja pengumuman, Anda dapat berlangganan ke mailing list tamu cs276-spr1213-tamu .


CS 276 Informasi Staf


Profesor:

Chris Manning , Jam Kantor: Wednesday 3-4 PM, Gates 158

Pandu Nayak , Jam kantor: setelah kelas dengan pengaturan sebelumnya

Prabhakar Raghavan , Jam kantor: setelah kelas dengan pengaturan sebelumnya

TA: Sonal Gupta (Kepala TA), Shui Hu, Anshul Mittal, Rukmani RaviSundaram, Thang Luong


Jam TA Office


Untuk jadwal rinci, memeriksa kalender Google menggunakan ID: f0qejqeg52qo292jk3i44lqd04@group.calendar.google.com

Jam Daytime Office


  • Senin: Gates B24A 10 11:00

  • Rabu: Gates B26B 11:00-12:00

  • Jumat: Gates B26B 10 11:00



Coding Sesi


  • Selasa: Bldg 160 Room 332 6-9

  • Rabu: Bldg 160 Room 332 6-09:00


Untuk siswa SCPD, kami akan tersedia melalui Google hangout, link yang akan diposting di Piazza.


Silabus


Rincian jadwal, video, slide dan daftar bacaan akan diperbarui sebagai kuartal berlangsung.

























Tanggal Dalam Kelas Tugas Siapa Bahan
Tue 2 Apr Pengantar saja: Diskusi isu dalam pencarian ditambah Web 1: pencarian Web, iklan, SEO
PN Coursera:

Boolean Retrieval (IIR Ch. 1)

Catatan:

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]

Bacaan:

IIR Ch. 1

MG 3.2

MIR 8.2

Drama Shakespeare
Thu 4 Apr Pembicara tamu: Jeff Dean pada evolusi pencarian Google dan sistem pencarian PA1 out Jeff Coursera:

Daftar Kosakata Syarat dan Postingan (IIR Ch. 2)

Catatan:

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]

Bacaan:

IIR Ch. 2

MG 3.6, 4.3

MIR 7.2

Stemmer Porter (MIR) , Porter berasal algoritma (Official)

Daftar melewatkan masak (Pugh 1990)

Frase cepat query dengan indeks gabungan (Williams, Zobel, Bahle 2004)

Frase efisien query dengan indeks tambahan (Bahle, Williams, Zobel 2002) MapReduce: pengolahan data disederhanakan pada kelompok besar (Dean dan Ghemawat 2004)
Tue 9 Apr Kelas laboratorium: Menulis algoritma merge untuk kedekatan query menggunakan indeks posisional

PrimaryPad

Bersama gdoc: http://bit.ly/HgCAdP

Persimpangan kerangka

Kerangka Positional

Jawaban Positional

[Membutuhkan sunet ID]
PS1 Out CM Coursera:

Index Konstruksi (IIR Ch. 4)

Catatan

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]

Bacaan

IIR Ch. 4

MG Ch. 5

Konstruksi yang efisien indeks single-pass untuk database teks (Heinz dan Zobel 2003)
Thu 11 Apr Lab kelas: Algoritma untuk daftar posting kompresi

PrimaryPad

compress.py

Hasil gdoc spreadsheet

Slide kompresi Jeff Dean

Simple-9 (Anh / Moffat)

Wikipedia: Golumb / Beras , Huffman , kode gamma Elias , kode unary

CM Coursera:

Indeks Kompresi (IIR Ch. 5)

Catatan:

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]

Bacaan:

IIR Ch. 5

MG 3.3, 3.4

Kompresi indeks terbalik untuk evaluasi permintaan cepat (Scholer et al 2002.)

Kompresi indeks terbalik menggunakan kode biner kata-blok (Anh dan Moffat 2005)
Tue 16 Apr Koreksi ejaan

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]
Karena PS1 PR Coursera:

Kamus dan Toleran Retrieval (IIR Ch. 3)

Catatan:

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]

Bacaan:

Bagaimana menulis korektor ejaan (Peter Norvig)

IIR Ch. 3

MG 4.2

Teknik untuk secara otomatis mengoreksi kata-kata dalam teks (Kukich 1992)

Menemukan pertandingan perkiraan dalam leksikon besar (Zobel dan Dart 1995)

Generasi dan PERINGKAT Spelling Koreksi Kesalahan (Tillenius) Efisien
Thu 18 Apr Lab Kelas: Mapreduce dengan Python

PrimaryPad

mapreduce.py

count_words.py

lmtrain.py

idf.py

index.py

anchors.py

index_with_anchors.py
PA1 karena

PA2 out
PN Coursera:

Vector Space Model (IIR Ch. 6)

Catatan:

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]

[ Jeff Dean Slides ]

Bacaan:

IIR 6.2 - 6.4.3
Tue 23 Apr Probabilistic IR: Binary Independence Model

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]
PS2 Out PN Bacaan:

IIR 11
Thu 25 Apr BM25, BM25F, dan sinyal peringkat [ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]

PN Bacaan:

IIR 11
Tue 30 Apr Evaluasi. Presisi / ingat, NDCG, dengan menggunakan rasio klik per tayang

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]
Karena PS2 PR Bacaan:

IIR Ch. 8

MG 4.5

MIR Ch. 3
Thu 2 Mei Masalah sistem dalam temu efisien dan scoring

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]
PA2 karena

PA3 out
PR Coursera:

Skor Computing (IIR Ch. 7)

Catatan:

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]

Bacaan:

IIR Ch. 7 , IIR 6.1
Tue 7 Mei Lucene Tutorial

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]
PS3 Out PN
Thu 9 Mei KLASIFIKASI 1 + 2: Naif Byes, kNN, batas keputusan

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]

PR Bacaan:

IIR Ch. 11

IIR Ch. 13

Mesin pembelajaran dalam kategorisasi teks otomatis (Sebastiani 2002)

Sebuah pemeriksaan ulang metode kategorisasi teks (Yang et al. 1999)

Perbandingan model event untuk naif Bayes klasifikasi teks (McCallum et al. 1998)

Tom Mitchell. Machine Learning. McGraw-Hill, 1997.

Buka Calais

Weka

Reuters-21578

Mengatasi asumsi miskin Naive Bayes classifier (Rennie et al. 2003)

IIR Ch. 14

Mesin pembelajaran dalam kategorisasi teks otomatis (Sebastiani 2002)

Tom Mitchell. Machine Learning. McGraw-Hill, 1997.

Sebuah pemeriksaan ulang metode kategorisasi teks (Yang et al. 1999)

Mengevaluasi dan mengoptimalkan sistem klasifikasi teks otonom (Lewis 1995)

Trevor Hastie, Robert Tibshirani, Jerome Friedman Elemen statistik Learning:. Data Mining, Inferensi, dan Prediksi. Springer-Verlag, New York, 2001.
Tue 14 Mei KLASIFIKASI 3. Mesin dukungan vektor

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]
Karena PS3 CM Bacaan:

IIR Ch. 15

Sebuah tutorial pada mesin dukungan vektor untuk pengenalan pola (Burges 1998)

Menggunakan SVM untuk teks kategorisasi (Dumais1998)

Algoritma pembelajaran induktif dan representasi untuk teks kategorisasi (Dumaiset a. 1998)

A Re-pemeriksaan metode kategorisasi teks (Yang et al. 1999)

Teks kategorisasi berdasarkan metode klasifikasi linear regularized (Zhang et al. 2001)

Trevor Hastie, Robert Tibshirani, Jerome Friedman Elemen statistik Learning:. Data Mining, Inferensi, dan Prediksi. Springer-Verlag, New York, 2001.

Reuters-21578

Thorsten Joachims. Belajar untuk Klasifikasikan Teks menggunakan Support Vector Machines. Kluwer, 2002.

Sebuah analisis fungsi kerugian untuk metode klasifikasi dalam teks kategorisasi (Li et al. 2003)
Thu 16 Mei Web 2: Belajar untuk peringkat.

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]
PA3 karena

PA4 out
CM Bacaan:

IIR 6.1.2-3 , IIR 15.4

Model diskriminatif untuk pencarian informasi (Nallapati 2004)

Beradaptasi peringkat SVM untuk mendokumentasikan pengambilan (Cao et al. 2006)

Sebuah metode vektor dukungan untuk mengoptimalkan presisi rata-rata (Yue et al. 2007)

Dataset LETOR patokan
Tue 21 Mei Diundang bicara: Sriram Sankar dari Facebook pada Grafik Pencarian
Sriram Sankar
Thu 23 Mei CLUSTERING 1: k-means, HAC

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]

PN Bacaan:

IIR Ch. 16 , IIR 17,1-3
Tue 28 May CLUSTERING 2. LSI

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]
PS4 Out CM Bacaan:

IIR Ch. 18
Thu 30 Mei Web 3: Analisis Link.

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]
PA4 karena PR Bacaan:

IIR Ch. 21

Peringkat perbatasan web (Eiron et al. 2004)

Kerangka WebGraph I: teknik kompresi (. Boldi et al 2004)

Metode ekstrapolasi untuk mempercepat perhitungan PageRank (Kamvar et al. 2003)

Mencari web kerja (Fagin et al. 2003
Tue 4 Jun Web 4: Crawling, dekat-dups PS4 karena PR Catatan:

[ powerpoint ]

[ PDF / 6 ]

[ PDF / 1 ]

Bacaan:

IIR Ch. 20

Mercator: A scalable, web crawler extensible (. Heydon et al, 1999)

Sebuah standar untuk pengecualian robot
Thu 6 Jun Tidak ada kelas.


Fri 7 Jun Ujian akhir (12:15-3:15)

Praktek Akhir

Praktek Solusi Akhir






Diperlukan Textbook:


IIR = Pengantar Information Retrieval, oleh C. Manning, P. Raghavan, dan H. Schütze. Cambridge University Press, 2008.

Buku ini tersedia dari toko buku Stanford (atau penyetor buku favorit Anda). Anda juga dapat men-download dan bab cetak di situs buku . (Kami akan menghargai setiap laporan kesalahan ketik atau masalah-tingkat yang lebih tinggi untuk pencetakan ketiga. Terima kasih.)


Lainnya Baik IR Books:


MG = Mengelola Gigabytes, oleh I. Witten, A. Moffat, dan T. Bell.

Irah = Information Retrieval: Algoritma dan Heuristic oleh D. Grossman dan O. Frieder.

MIR = Informasi modern Retrieval, oleh R. Baeza-Yates dan Ribeiro-Neto B..

FOA = Menemukan Out Tentang, oleh R. Belew.

MTW = Pertambangan Web, oleh S. Chakrabarti.

FSNLP = Yayasan Statistik Natural Language Processing, oleh C. Manning dan H. Schütze.

Buku-buku ini semua memiliki informasi yang berguna tentang topik yang kita bahas dan direkomendasikan sebagai referensi. MG sangat baik sebagai referensi rinci untuk IR teknis pada semester pertama tentu saja. MTW mencakup banyak topik dari bagian akhir kursus.



Lebih banyak sumber daya rinci dapat ditemukan di sini .


Dosen:


CM = Chris Manning

PN = Pandu Nayak

PR = Prabhakar Raghavan

Program terkait:

Pengantar Komputasi Advertising ( http://www.stanford.edu/class/msande239/ )







Enhanced by Zemanta


Luncurkan toko Anda hanya dalam 4 detik dengan 
 
Top